論文の概要: Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study
- arxiv url: http://arxiv.org/abs/2506.04810v1
- Date: Thu, 05 Jun 2025 09:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.633812
- Title: Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study
- Title(参考訳): LLMにおける分別論理推論:細粒度評価と監督研究
- Authors: Yujun Zhou, Jiayi Ye, Zipeng Ling, Yufei Han, Yue Huang, Haomin Zhuang, Zhenwen Liang, Kehan Guo, Taicheng Guo, Xiangqi Wang, Xiangliang Zhang,
- Abstract要約: 本研究では,3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを提案する。
微調整時の監督形式の効果について検討する。
この結果から, 自然言語指導は, アウト・オブ・ディストリビューションや長文タスクにも強い一般化をもたらすことが明らかとなった。
- 参考スコア(独自算出の注目度): 34.29839553042609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical reasoning is a core capability for many applications of large language models (LLMs), yet existing benchmarks often rely solely on final-answer accuracy, failing to capture the quality and structure of the reasoning process. We propose FineLogic, a fine-grained evaluation framework that assesses logical reasoning across three dimensions: overall benchmark accuracy, stepwise soundness, and representation-level alignment. In addition, to better understand how reasoning capabilities emerge, we conduct a comprehensive study on the effects of supervision format during fine-tuning. We construct four supervision styles (one natural language and three symbolic variants) and train LLMs under each. Our findings reveal that natural language supervision yields strong generalization even on out-of-distribution and long-context tasks, while symbolic reasoning styles promote more structurally sound and atomic inference chains. Further, our representation-level probing shows that fine-tuning primarily improves reasoning behaviors through step-by-step generation, rather than enhancing shortcut prediction or internalized correctness. Together, our framework and analysis provide a more rigorous and interpretable lens for evaluating and improving logical reasoning in LLMs.
- Abstract(参考訳): 論理的推論は、大規模言語モデル(LLM)の多くのアプリケーションにとってコア機能であるが、既存のベンチマークはしばしば最終回答の精度に頼っており、推論プロセスの品質と構造を捉えていない。
本研究では,3次元にわたる論理的推論(ベンチマークの精度,ステップワイドの健全性,表現レベルのアライメント)を評価する,きめ細かい評価フレームワークであるFineLogicを提案する。
さらに、推論能力の出現をよりよく理解するために、微調整中の監視形式の効果について包括的な研究を行う。
我々は4つの指導スタイル(1つの自然言語と3つの記号変種)を構築し、それぞれにLLMを訓練する。
その結果, 自然言語の指導は, 分布外タスクや長文タスクにも強く一般化し, シンボリック推論スタイルはより構造的に健全で原子推論の連鎖を促進することがわかった。
さらに,我々の表現レベル探索は,ショートカット予測や内部的正当性の向上よりも,ステップバイステップ生成による推論行動の改善が主であることを示す。
我々のフレームワークと分析は、LLMの論理的推論を評価し改善するための、より厳密で解釈可能なレンズを提供する。
関連論文リスト
- MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs [34.2218892593144]
MME-Reasoningは、大規模言語モデル(MLLM)の推論能力を評価するために設計されたベンチマークである。
本評価では,論理的推論能力の総合的評価を受けると,最先端のMLLMの限界が明らかになる。
さらに,「思考モード」や「ルールベースRL」など,推論能力を高めると一般的に信じられているアプローチの詳細な分析を行った。
論文 参考訳(メタデータ) (2025-05-27T15:23:23Z) - Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning [1.3003982724617653]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、一貫性のない推論に苦戦している。
本研究では,LLM出力の信頼性と透明性を高めるフレームワークであるProof of Thoughtを紹介する。
主な貢献は、論理的整合性を高めるためのソート管理を備えた堅牢な型システム、事実的知識と推論的知識を明確に区別するための規則の明示である。
論文 参考訳(メタデータ) (2024-09-25T18:35:45Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Are Large Language Models Really Good Logical Reasoners? A Comprehensive Evaluation and Beyond [46.75497042978449]
大規模言語モデル(LLM)は、自然言語処理(NLP)における注目すべき革新として登場した。
本論文では,このギャップを埋め,包括的に評価することを目的としている。
評価の包括性を考慮すると、3つの早期代表型LSMと4つのトレンド型LSMを含む。
論文 参考訳(メタデータ) (2023-06-16T13:39:35Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。