論文の概要: Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents
- arxiv url: http://arxiv.org/abs/2408.16081v2
- Date: Thu, 29 May 2025 14:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 20:45:56.842377
- Title: Towards Logically Sound Natural Language Reasoning with Logic-Enhanced Language Model Agents
- Title(参考訳): 論理拡張型言語モデルエージェントを用いた論理的自然言語推論
- Authors: Agnieszka Mensfelt, Kostas Stathis, Vince Trencsenyi,
- Abstract要約: Logic-Enhanced Language Model Agents (LELMA) は、大きな言語モデルと形式論理を統合するフレームワークである。
LeLMAは自動形式化を用いて推論を論理表現に変換し、論理的妥当性を評価する。
LeLMAはエラー検出の精度が高く,自己修正による推論精度の向上を実現している。
- 参考スコア(独自算出の注目度): 3.5083201638203154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly explored as general-purpose reasoners, particularly in agentic contexts. However, their outputs remain prone to mathematical and logical errors. This is especially challenging in open-ended tasks, where unstructured outputs lack explicit ground truth and may contain subtle inconsistencies. To address this issue, we propose Logic-Enhanced Language Model Agents (LELMA), a framework that integrates LLMs with formal logic to enable validation and refinement of natural language reasoning. LELMA comprises three components: an LLM-Reasoner, an LLM-Translator, and a Solver, and employs autoformalization to translate reasoning into logic representations, which are then used to assess logical validity. Using game-theoretic scenarios such as the Prisoner's Dilemma as testbeds, we highlight the limitations of both less capable (Gemini 1.0 Pro) and advanced (GPT-4o) models in generating logically sound reasoning. LELMA achieves high accuracy in error detection and improves reasoning correctness via self-refinement, particularly in GPT-4o. The study also highlights challenges in autoformalization accuracy and in evaluation of inherently ambiguous open-ended reasoning tasks.
- Abstract(参考訳): 大規模言語モデル (LLM) は、特にエージェント的文脈において、汎用的推論として研究されている。
しかし、それらの出力は、数学的および論理的誤りを生じやすいままである。
これは、構造化されていないアウトプットが明確な根拠の真実を欠き、微妙な矛盾を含むような、オープンエンドなタスクにおいて特に困難である。
この問題を解決するために,LLMを形式論理と統合し,自然言語推論の検証と改良を可能にするフレームワークであるLELMA(Logic-Enhanced Language Model Agents)を提案する。
LELMA は LLM-Reasoner と LLM-Translator と Solver の3つのコンポーネントから構成されており、推論を論理表現に変換し、論理的妥当性を評価するために使用される。
プリソナーズ・ジレンマのようなゲーム理論のシナリオをテストベッドとして使用し、論理的に健全な推論を生成する上で、能力の低い(Gemini 1.0 Pro)モデルと高度な(GPT-4o)モデルの両方の制限を強調した。
LELMAはエラー検出において高い精度を実現し、特にGPT-4oでは自己修正による推論精度を向上させる。
この研究はまた、自己形式化の精度と、本質的に曖昧なオープンエンド推論タスクの評価における課題を強調している。
関連論文リスト
- Guiding Reasoning in Small Language Models with LLM Assistance [23.3038074903744]
小さな言語モデルは、深く、多段階の論理的推論を必要とするタスクに適していると疑念を抱いた。
本稿では,Small Reasons, Large Hintsというフレームワークについて紹介する。
数学的推論データセットを用いた実験により, ターゲットとなる外部足場の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-14T06:32:45Z) - A Modular Dataset to Demonstrate LLM Abstraction Capability [3.0899016152680754]
大きな言語モデル(LLM)は印象的な能力を示すが、幻覚や論理の欠陥による推論エラーに苦慮している。
ArrangementPuzzleは、構造化されたソリューションと段階的正当性の自動検証を備えた、新しいパズルデータセットである。
このデータセット上で, LLMアクティベーションに関する分類器モデルを訓練した結果, 推論精度の予測において80%以上の精度が得られた。
論文 参考訳(メタデータ) (2025-03-22T04:25:30Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - Reversal of Thought: Enhancing Large Language Models with Preference-Guided Reverse Reasoning Warm-up [9.42385235462794]
大規模言語モデル(LLM)は、推論タスクにおいて顕著な性能を示すが、数学的および複雑な論理的推論において制限に直面している。
LLMの論理的推論能力の向上を目的とした新しいフレームワークであるReversal of Thought (RoT)を提案する。
RoT は Preference-Guided Reverse Reasoning warm-up 戦略を利用している。
論文 参考訳(メタデータ) (2024-10-16T07:44:28Z) - Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs [43.67312098562139]
本稿では,大規模言語モデルの意思決定ロジックと人間の認知との整合性を評価する手法を提案する。
我々は、LLMによって符号化された相互作用を原始的な決定論理として定量化する。
実験により、言語生成結果が正しいように見える場合でも、内部推論ロジックのかなりの部分が顕著な問題を含んでいることが示された。
論文 参考訳(メタデータ) (2024-10-06T08:33:39Z) - Aligning with Logic: Measuring, Evaluating and Improving Logical Consistency in Large Language Models [31.558429029429863]
我々は,より信頼性が高く信頼性の高いシステムのための前提条件として,Large Language Models (LLM) の論理的一貫性について検討する。
まず、推移性、可換性、否定不変性という3つの基本的なプロキシを通して論理的一貫性を定量化する普遍的枠組みを提案する。
次に,LLMの定義値を用いて論理的整合性を評価し,総合的ロバスト性のための強力なプロキシとして機能できることを実証する。
論文 参考訳(メタデータ) (2024-10-03T04:34:04Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Can Language Models Pretend Solvers? Logic Code Simulation with LLMs [3.802945676202634]
トランスフォーマーベースの大規模言語モデル(LLM)は、論理問題に対処する上で大きな可能性を示している。
この研究は、論理コードシミュレーションという新しい側面に発展し、論理プログラムの結果を予測するために論理解法をエミュレートするよう LLM に強制する。
論文 参考訳(メタデータ) (2024-03-24T11:27:16Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。