論文の概要: HYBRIDMIND: Meta Selection of Natural Language and Symbolic Language for Enhanced LLM Reasoning
- arxiv url: http://arxiv.org/abs/2409.19381v5
- Date: Wed, 26 Feb 2025 03:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 13:11:30.908032
- Title: HYBRIDMIND: Meta Selection of Natural Language and Symbolic Language for Enhanced LLM Reasoning
- Title(参考訳): HYBRIDMIND:LLM推論のための自然言語と記号言語のメタ選択
- Authors: Simeng Han, Tianyu Liu, Chuhan Li, Xuyuan Xiong, Arman Cohan,
- Abstract要約: 本稿では,各推論問題に対して最適な推論手法を選択する適応戦略であるHYBRIDMINDを紹介する。
メタセレクタとしての微調整 LLaMA-3.1-8B-Instruct は GPT-4o の自然言語推論より優れている。
- 参考スコア(独自算出の注目度): 25.192089674713365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs approach logical and mathematical reasoning through natural or symbolic languages. While natural language offers human-accessible flexibility but suffers from ambiguity, symbolic reasoning provides precise, machine-executable inferences at the cost of strict domain constraints. We introduce HYBRIDMIND, an adaptive strategy that selects the optimal reasoning approach for each reasoning problem. Through extensive experiments, we evaluate both prompting-based approaches with state-of-the-art LLMs and fine-tuned open-source models. We find that fine-tuning LLaMA-3.1-8B-Instruct as a meta-selector outperforms GPT-4o's natural language reasoning by 4.4\% on FOLIO and 1.3\% on MATH. More notably, using GPT-3.5-turbo as a prompted meta-selector yields a 10\% improvement on FOLIO's challenging subset compared to GPT-4o. We will release our code and data to support future research.
- Abstract(参考訳): LLMは自然言語や記号言語を通して論理的および数学的推論にアプローチする。
自然言語は人間のアクセス可能な柔軟性を提供するがあいまいさに悩まされるが、シンボリック推論は厳密なドメイン制約を犠牲にして正確でマシン実行可能な推論を提供する。
本稿では,各推論問題に対して最適な推論手法を選択する適応戦略であるHYBRIDMINDを紹介する。
大規模な実験を通じて、最先端のLCMと微調整されたオープンソースモデルによるプロンプトベースアプローチの評価を行った。
メタセレクタとしての微調整LLaMA-3.1-8B-インストラクタは,FOLIOでは4.4 %,MATHでは1.3 %,GPT-4o の自然言語推論では4.4 %,MATHでは1.3 %に優れていた。
さらに、メタセレクタとしてGPT-3.5-turboを使用すると、GPT-4oと比較してFOLIOの挑戦的なサブセットが10倍改善される。
今後の研究を支援するため、コードとデータを公開します。
関連論文リスト
- PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts [79.84059473102778]
PolyMathは18の言語と4つの難易度をカバーする多言語数学的推論ベンチマークである。
我々のベンチマークは、包括性、言語多様性、高品質な翻訳の難しさを保証する。
論文 参考訳(メタデータ) (2025-04-25T15:39:04Z) - OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された下線最適化問題を解くためのフレームワークである textbfOptimAI を紹介する。
本フレームワークは,(1) アンフフォーマレータ,(2) アンフプランナー,(3) エンプコーダ,およびエンプコード評論家の4つの重要な役割に基づいて構築されている。
NLP4LPデータセットでは88.1%の精度で、Optibenchサブセットでは71.2%の精度でエラー率を58%と50%減らしている。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - Making LLMs Reason? The Intermediate Language Problem in Neurosymbolic Approaches [49.567092222782435]
本稿では、ニューロシンボリックアプローチに適した形式言語表現を選択する問題である中間言語問題を紹介する。
全体の精度は53.20%、実行精度は49.26%である。
GPT4o-mini LLMを使用すると、ProofWriterデータセットの全体的な精度が21.20%、50.50%向上する。
論文 参考訳(メタデータ) (2025-02-24T14:49:52Z) - Towards LLM-based optimization compilers. Can LLMs learn how to apply a single peephole optimization? Reasoning is all LLMs need! [0.9054540533394926]
細調整されていないOpenAI GPT-o1は、微調整されたLlama2とGPT-4oより優れていることを示す。
この利点は, GPT-o1に実装された連鎖推論が原因であることが示唆された。
論文 参考訳(メタデータ) (2024-12-11T18:44:31Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - LOGIC-LM++: Multi-Step Refinement for Symbolic Formulations [1.024113475677323]
本稿では Logic-LM++ を改良した Logic-LM++ を提案する。
LLMの機能をペアで比較し、LLMが提案する改善点の評価を可能にする。
論文 参考訳(メタデータ) (2024-06-22T12:50:41Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization [65.31411639849516]
本稿では,他言語の推論過程を支配言語と整合させるために,MAPO(Multilingual-Alignment-as-Preference Optimization)フレームワークを提案する。
具体的には,非支配言語と支配言語における回答の整合性について,既成の翻訳モデルを用いて検討する。
実験により、MAPOは様々なモデルの多言語推論において、安定して大幅な改善を達成できることが示された。
論文 参考訳(メタデータ) (2024-01-12T18:03:54Z) - How Proficient Are Large Language Models in Formal Languages? An In-Depth Insight for Knowledge Base Question Answering [52.86931192259096]
知識ベース質問回答(KBQA)は,知識ベースにおける事実に基づいた自然言語質問への回答を目的としている。
最近の研究は、論理形式生成のための大規模言語モデル(LLM)の機能を活用して性能を向上させる。
論文 参考訳(メタデータ) (2024-01-11T09:27:50Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Leveraging Large Language Models to Generate Answer Set Programs [5.532477732693001]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて例外的な性能を示した。
本稿では,大規模言語モデルの強みと解集合プログラミングを組み合わせたニューロシンボリック手法を提案する。
論文 参考訳(メタデータ) (2023-07-15T03:40:55Z) - ChatABL: Abductive Learning via Natural Language Interaction with
ChatGPT [72.83383437501577]
大規模言語モデル(LLM)は、最近数学的な能力において大きな可能性を証明している。
LLMは現在、認識、言語理解、推論能力のブリッジングに困難を抱えている。
本稿では, LLMを帰納学習フレームワークに統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-21T16:23:47Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。