論文の概要: Are Language Models Efficient Reasoners? A Perspective from Logic Programming
- arxiv url: http://arxiv.org/abs/2510.25626v1
- Date: Wed, 29 Oct 2025 15:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.79279
- Title: Are Language Models Efficient Reasoners? A Perspective from Logic Programming
- Title(参考訳): 言語モデルは効率的な推論子か?論理プログラミングの視点から
- Authors: Andreas Opedal, Yanick Zengaffinen, Haruki Shirakami, Clemente Pasti, Mrinmaya Sachan, Abulhair Saparov, Ryan Cotterell, Bernhard Schölkopf,
- Abstract要約: 現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。
本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 109.47572890883248
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern language models (LMs) exhibit strong deductive reasoning capabilities, yet standard evaluations emphasize correctness while overlooking a key aspect of human-like reasoning: efficiency. In real-world reasoning scenarios, much of the available information is irrelevant, and effective deductive inference requires identifying and ignoring such distractions. We propose a framework for assessing LM reasoning efficiency through the lens of logic programming, introducing a simple method to align proofs written in natural language -- as generated by an LM -- with shortest proofs found by executing the logic program. Efficiency is quantified by measuring how well a model avoids unnecessary inference. Empirically, we construct a dataset of math word problems injected with various number of irrelevant axioms that vary in semantic overlap with the goal theorem. We find that current LMs show marked accuracy declines under such conditions -- even with minimal, domain-consistent distractions -- and the proofs they generate frequently exhibit detours through irrelevant inferences.
- Abstract(参考訳): 現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価では、人間のような推論の重要な側面である効率性を見越しながら、正確さを強調している。
現実の推論シナリオでは、利用可能な情報の多くは無関係であり、効果的な推論にはそのような注意を識別し無視する必要がある。
本稿では,論理プログラミングのレンズを用いてLM推論効率を評価するためのフレームワークを提案する。
モデルはどれだけ不必要な推論を避けるかを測定することで効率を定量化する。
経験的に,目的定理と意味的重なり合いの異なる無関係公理を多種に含めた数学用語問題のデータセットを構築した。
現在のLMは、ドメインに一貫性のある最小限の障害があっても、そのような条件下では精度が著しく低下しており、それらが頻繁に発生する証明は、無関係な推論を通じてデトゥールを示す。
関連論文リスト
- Can Large Language Models Learn Formal Logic? A Data-Driven Training and Evaluation Framework [2.9334627971166336]
本稿では,大規模言語モデル(LLM)の論理的推論能力について検討する。
訓練されたLLMは、一連の仮定とゴールを入力として受け取り、その仮定からゴールを正式に導出する証明を出力として生成する。
トレーニングにとって重要な障害は、現実世界の証明が不足していることだ。
論文 参考訳(メタデータ) (2025-04-28T19:25:29Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Scaling Synthetic Logical Reasoning Datasets with Context-Sensitive Declarative Grammars [0.6537995248511139]
複数の言語を結合するフレキシブルなコンテキスト依存ルールを持つ宣言型フレームワークを提案する。
最大32の前提と1つの仮説を選択して一階述語論理問題を構築する。
生成中の意味的制約と述語に対する注意深い英語の動詞化は、自然な英語のタスクを損なうことなく論理的推論を促進することを実証する。
論文 参考訳(メタデータ) (2024-06-16T18:10:49Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof Generation with Contrastive Stepwise Decoding [10.421832675327712]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。