論文の概要: Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study
- arxiv url: http://arxiv.org/abs/2506.04810v2
- Date: Thu, 09 Oct 2025 12:32:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.524017
- Title: Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study
- Title(参考訳): LLMにおける分別論理推論:細粒度評価と監督研究
- Authors: Yujun Zhou, Jiayi Ye, Zipeng Ling, Yufei Han, Yue Huang, Haomin Zhuang, Zhenwen Liang, Kehan Guo, Taicheng Guo, Xiangqi Wang, Xiangliang Zhang,
- Abstract要約: 我々は3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを紹介した。
微調整形推論能力の異なる監督形式について検討する。
自然言語の監督は一般化において優れており、シンボリックな監督は構造的に健全な原子推論のステップを打つのに優れている。
- 参考スコア(独自算出の注目度): 40.143148197878354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical reasoning is a core capability for large language models (LLMs), yet existing benchmarks that rely solely on final-answer accuracy fail to capture the quality of the reasoning process. To address this, we introduce FineLogic, a fine-grained evaluation framework that assesses logical reasoning across three dimensions: overall accuracy, stepwise soundness, and representation-level probing. Leveraging this framework, we conduct a comprehensive study on how different supervision formats in fine-tuning shape reasoning abilities. We fine-tune LLMs on four supervision styles: one in natural language and three symbolic variants. We find a key trade-off: natural language supervision excels at generalization to out-of-distribution and long-chain problems, whereas symbolic supervision is superior at instilling structurally sound, atomic reasoning steps. Furthermore, our probing analysis indicates that fine-tuning primarily refines the model's step-by-step generation process, rather than improving its ability to converge on an answer early. Together, our framework and analysis provide a more rigorous lens for evaluating and improving logical reasoning in LLMs. The code is available at https://github.com/YujunZhou/FineLogic.
- Abstract(参考訳): 論理推論は、大規模言語モデル(LLM)のコア機能であるが、最終回答の精度のみに依存する既存のベンチマークでは、推論プロセスの品質を捉えることができない。
そこで我々は,3次元の論理的推論(全体精度,ステップワイド・サウンドネス,表現レベルの探索)を評価する,きめ細かい評価フレームワークであるFineLogicを紹介した。
この枠組みを応用し、細調整形状推論能力における異なる監督形式がどのように異なるかを包括的に研究する。
我々は、自然言語の1つと記号の3つの変種という、4つの監督スタイルでLLMを微調整する。
自然言語の監督は、分布外および長鎖問題への一般化に優れ、シンボリックな監督は構造的健全な原子推論ステップの挿入に優れている。
さらに,本研究では,解答を早期に収束させる能力を向上させるのではなく,ステップ・バイ・ステップ生成プロセスの微調整が主であることを示す。
我々のフレームワークと分析は、LLMの論理的推論を評価し改善するためのより厳密なレンズを提供する。
コードはhttps://github.com/YujunZhou/FineLogicで入手できる。
関連論文リスト
- From Language to Logic: A Bi-Level Framework for Structured Reasoning [6.075080928704587]
自然言語入力に対する構造化推論は、人工知能における中核的な課題である。
本稿では,ハイレベルなタスク抽象化と低レベルなロジック生成という2段階のプロセスを通じて,言語を論理にマッピングする新しいフレームワークを提案する。
提案手法は既存のベースラインの精度を著しく上回り,精度は最大40%向上した。
論文 参考訳(メタデータ) (2025-07-11T11:24:09Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs [34.2218892593144]
MME-Reasoningは、大規模言語モデル(MLLM)の推論能力を評価するために設計されたベンチマークである。
本評価では,論理的推論能力の総合的評価を受けると,最先端のMLLMの限界が明らかになる。
さらに,「思考モード」や「ルールベースRL」など,推論能力を高めると一般的に信じられているアプローチの詳細な分析を行った。
論文 参考訳(メタデータ) (2025-05-27T15:23:23Z) - P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains [97.25943550933829]
P-FOLIO(P-FOLIO)は、多種多様で複雑な推論連鎖からなる人称注釈付きデータセットである。
我々はP-FOLIOを用いて大規模言語モデル推論機能の評価と改善を行う。
論文 参考訳(メタデータ) (2024-10-11T19:22:57Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond [46.75497042978449]
大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
評価の包括性を考慮すると、3つの早期代表型LSMと4つのトレンド型LSMを含む。
論文 参考訳(メタデータ) (2023-06-16T13:39:35Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Improved Logical Reasoning of Language Models via Differentiable
Symbolic Programming [12.984852480664378]
事前訓練された大規模言語モデル(LM)は、スケールと構成性の進歩にもかかわらず、論理的推論を確実に行うのに苦労する。
本稿では,DSR-LMを提案する。DSR-LMは,事前学習したLMが事実知識の認識を制御し,帰納的推論を行う,微分可能なシンボリック推論フレームワークである。
論文 参考訳(メタデータ) (2023-05-05T07:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。