Fugu-MT 論文翻訳(概要): Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving

論文の概要: Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving

arxiv url: http://arxiv.org/abs/2602.20973v1
Date: Tue, 24 Feb 2026 14:53:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.79788
Title: Linear Reasoning vs. Proof by Cases: Obstacles for Large Language Models in FOL Problem Solving
Title（参考訳）: 事例による線形推論対証明:FOL問題解決における大規模言語モデルの障害物
Authors: Yuliang Ji, Fuchen Shen, Jian Wu, Qiujie Xie, Yue Zhang,
Abstract要約: 我々は,プロの数学者によって注釈付けされたPC-FOLという新しい一階述語論理(FOL)データセットを導入する。このデータセットのすべてのインスタンスは手書きの自然言語証明を備えており、従来の線形推論データセットと明確に区別されている。
参考スコア（独自算出の注目度）: 11.939133563702066
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: To comprehensively evaluate the mathematical reasoning capabilities of Large Language Models (LLMs), researchers have introduced abundant mathematical reasoning datasets. However, most existing datasets primarily focus on linear reasoning, neglecting other parts such as proof by contradiction and proof by cases, which are crucial for investigating LLMs' reasoning abilities. To address this limitation, we first introduce a novel first-order logic (FOL) dataset named PC-FOL, annotated by professional mathematicians, focusing on case-based reasoning problems. All instances in this dataset are equipped with a manually written natural language proof, clearly distinguishing it from conventional linear reasoning datasets. Our experimental results over leading LLMs demonstrate a substantial performance gap between linear reasoning and case-based reasoning problems. To further investigate this phenomenon, we provide a theoretical analysis grounded in graphical model, which provides an explanation for the observed disparity between the two types of reasoning problems. We hope this work can reveal the core challenges in the field of automated natural language mathematical proof generation, paving the way for future research.
Abstract（参考訳）: 大規模言語モデル(LLM)の数学的推論能力を総合的に評価するために、研究者は豊富な数学的推論データセットを導入した。しかし、既存のデータセットのほとんどは線形推論に重点を置いており、矛盾による証明やケースによる証明など他の部分を無視している。この制限に対処するために、我々はまず、プロの数学者によって注釈付けされたPC-FOLという新しい一階述語論理(FOL)データセットを導入し、ケースベースの推論問題に焦点を当てた。このデータセットのすべてのインスタンスは手書きの自然言語証明を備えており、従来の線形推論データセットと明確に区別されている。先行LLMに対する実験結果から,線形推論とケースベース推論の相違が顕著に示された。さらに, この現象を解析するために, グラフィカルモデルに基づく理論的解析を行った。この研究が、自動化された自然言語数学的証明生成の分野における中核的な課題を明らかにし、将来の研究への道を開くことを願っている。

関連論文リスト

Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-29T15:30:31Z)
Evaluating the Logical Reasoning Abilities of Large Reasoning Models [15.009205651973666]
大規模な推論モデルにおける論理的推論を評価するためのベンチマークであるLogiEvalを紹介する。 LogiEvalは様々な推論タイプ(帰納的、帰納的、類推的、帰納的)とタスク形式(論理的シーケンス、引数解析など)にまたがる。実験により,現代の推論モデルでは,4選択の議論解析問題や類似推論において,人間の性能を上回っていることがわかった。解析の結果,人為的性能はモデル故障分布を反映しないことがわかった。
論文参考訳（メタデータ） (2025-05-17T05:36:14Z)
Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models [76.6028674686018]
エージェントの精神状態を追跡するための推論時間推論アルゴリズムである思考トレースを導入する。提案アルゴリズムは,ベイズ理論をモデルとした。本研究は,様々なベンチマークにおける思考トレーシングを評価し,大幅な性能向上を実証した。
論文参考訳（メタデータ） (2025-02-17T15:08:50Z)
JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。 JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文参考訳（メタデータ） (2025-01-24T15:49:10Z)
Critical-Questions-of-Thought: Steering LLM reasoning with Argumentative Querying [0.3659498819753633]
State-of-the-art Large Language Model (LLM) は論理的および数学的推論を行う際にも苦戦している。本稿では、議論論に関する文献からの批判的質問の概念を利用し、特にトゥールミンの議論モデルに焦点を当てる。これらの重要な質問を取り入れることで,LLMの推論能力が向上することを示す。
論文参考訳（メタデータ） (2024-12-19T18:51:30Z)
Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data [53.433309883370974]
本研究では,大規模言語モデルの推論能力を高めるための学習信号としてグラフベースの合成推論データを使用することの可能性と限界について検討する。 2つの確立された自然言語推論タスクにおいて,合成グラフに基づく推論データによる教師付き微調整が,他の標準評価ベンチマークでの有効性を損なうことなく,LLMの推論性能を効果的に向上することを示した。
論文参考訳（メタデータ） (2024-09-19T03:39:09Z)
A Systematic Analysis of Large Language Models as Soft Reasoners: The Case of Syllogistic Inferences [5.141416267381492]
我々は、論理学と認知心理学において広範囲に研究されている誘因的推論の領域であるシロメトリクス推論の事例を考察する。思考の連鎖的推論,文脈内学習,教師付き微調整がシロメトリクス的推論に及ぼす影響について検討した。以上の結果から,事前学習したLSMの行動は認知科学によって説明できる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-17T08:59:04Z)
Zero-shot Causal Graph Extrapolation from Text via LLMs [50.596179963913045]
我々は,自然言語から因果関係を推定する大規模言語モデル (LLM) の能力を評価する。 LLMは、(特別な)トレーニングサンプルを必要とせずにペア関係のベンチマークで競合性能を示す。我々は、反復的なペアワイズクエリを通して因果グラフを外挿するアプローチを拡張した。
論文参考訳（メタデータ） (2023-12-22T13:14:38Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。