Fugu-MT 論文翻訳(概要): Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis

論文の概要: Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis

arxiv url: http://arxiv.org/abs/2604.14121v1
Date: Wed, 15 Apr 2026 17:43:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-16 20:38:32.663812
Title: Correct Prediction, Wrong Steps? Consensus Reasoning Knowledge Graph for Robust Chain-of-Thought Synthesis
Title（参考訳）: 正しい予測, 誤りステップ? ロバスト連鎖合成のための合意推論知識グラフ
Authors: Zipeng Ling, Shuliang Liu, Shenghong Fu, Yuehao Tang, Seonil Son, Yao Wan, Xuming Hu,
Abstract要約: LLM推論トレースは複雑な欠陥に悩まされている -- * 内部的欠陥* (論理的誤り、幻覚など) と * 側的欠陥* (再考、再考)
参考スコア（独自算出の注目度）: 29.865115662967252
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM reasoning traces suffer from complex flaws -- *Step Internal Flaws* (logical errors, hallucinations, etc.) and *Step-wise Flaws* (overthinking, underthinking), which vary by sample. A natural approach would be to provide ground-truth labels to guide LLMs' reasoning. Contrary to intuition, we show that this yields no improvement in reasoning ability. We then propose CRAFT, a unified framework that mitigates both types of Step flaws, which builds a Reasoning Knowledge Graph (RKG) based on the consensus parts of multiple candidate traces, and synthesizes a high-quality trace through topological generation. Our approach improves label-prediction accuracy by 10+% on average, and consistently outperforms all baselines across both logical and mathematical reasoning benchmarks. Further, detailed benchmark evaluation proves that our method also improves the quality of LLMs' reasoning traces in multiple dimensions.
Abstract（参考訳）: LLMの推論トレースは複雑な欠陥に悩まされている - *Step internal Flaws* (論理的エラー、幻覚など) と *Step-wise Flaws* (過小評価、軽視) はサンプルによって異なる。自然なアプローチは、LLMの推論を導くために、地平線ラベルを提供することである。直観とは対照的に、推論能力の改善は得られない。次に、複数の候補トレースのコンセンサス部分に基づいて推論知識グラフ(RKG)を構築し、トポロジ生成を通じて高品質なトレースを合成する、両方のステップ欠陥を緩和する統合フレームワークであるCRAFTを提案する。提案手法は,ラベル予測の精度を平均で10以上向上し,論理的および数学的推論のベンチマークにおいて,全ての基準線を一貫して上回っている。さらに, 詳細なベンチマーク評価により, 複数の次元におけるLCMの推論トレースの品質も向上することが確認された。

関連論文リスト

Training LLMs with LogicReward for Faithful and Rigorous Reasoning [75.30425553246177]
定理証明器を用いてステップレベルの論理的正しさを強制することでモデルトレーニングを指導する報酬システムであるLogicRewardを提案する。 LogicRewardで構築されたデータに基づいてトレーニングされた8Bモデルは、GPT-4oとo4-miniを11.6%、自然言語推論と論理的推論タスクで2%超えた。
論文参考訳（メタデータ） (2025-12-20T03:43:02Z)
Are Language Models Efficient Reasoners? A Perspective from Logic Programming [109.47572890883248]
現代言語モデル(LM)は、強い推論能力を示すが、標準的な評価は、人間のような推論の重要な側面である効率性を見越しながら、正確性を強調する。本稿では、論理プログラミングのレンズを用いて、LM推論効率を評価するためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-29T15:30:31Z)
Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文参考訳（メタデータ） (2025-10-28T11:01:10Z)
What Defines Good Reasoning in LLMs? Dissecting Reasoning Steps with Multi-Aspect Evaluation [67.47463575774388]
我々は推論品質を関連性と一貫性の2つの次元に分解する。これらの側面を確実に測定するために、因果的段階評価(CaSE)を導入する。トレーニングデータをCaSEで評価した妥当性とコヒーレンスでキュレートすることで、最終タスクのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-10-23T14:30:37Z)
Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [40.143148197878354]
我々は3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを紹介した。微調整形推論能力の異なる監督形式について検討する。自然言語の監督は一般化において優れており、シンボリックな監督は構造的に健全な原子推論のステップを打つのに優れている。
論文参考訳（メタデータ） (2025-06-05T09:34:12Z)
Premise-Augmented Reasoning Chains Improve Error Identification in Math reasoning with LLMs [10.179253284788796]
大型言語モデル(LLM)の数学的推論を促進させるチェーン・オブ・ソート(CoT) 本稿では,各ステップの前提を識別し,推論の評価を改善するためのフレームワークを提案する。本研究は,複雑な問題解決課題に対処する前提中心表現の有用性を強調した。
論文参考訳（メタデータ） (2025-02-04T14:44:58Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Neuro-Symbolic Integration Brings Causal and Reliable Reasoning Proofs [95.07757789781213]
LLMの複雑な推論には2行のアプローチが採用されている。 1行の作業は様々な推論構造を持つLLMを誘導し、構造出力は自然に中間推論ステップと見なすことができる。他方の行では、LCMのない宣言的解法を用いて推論処理を行い、推論精度は向上するが、解法のブラックボックスの性質により解釈性に欠ける。具体的には,Prologインタプリタが生成した中間検索ログにアクセスし,人間可読推論に解釈可能であることを示す。
論文参考訳（メタデータ） (2023-11-16T11:26:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。