論文の概要: Dissecting Failure Dynamics in Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2604.14528v1
- Date: Thu, 16 Apr 2026 01:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.675085
- Title: Dissecting Failure Dynamics in Large Language Model Reasoning
- Title(参考訳): 大規模言語モデル推論における分解破壊ダイナミクス
- Authors: Wei Zhu, Jian Zhang, Lixing Yu, Kun Yue, Zhiwen Tang,
- Abstract要約: 大規模言語モデル(LLM)は、拡張された推論時間による検討を通じて、強力なパフォーマンスを達成する。
エラーは均一に分散されていないが、しばしば少数の初期遷移点に由来する。
我々は、重要な遷移を探索し、リダイレクトするターゲット推論時間フレームワークであるGUARDを紹介する。
- 参考スコア(独自算出の注目度): 9.525092839502433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) achieve strong performance through extended inference-time deliberation, yet how their reasoning failures arise remains poorly understood. By analyzing model-generated reasoning trajectories, we find that errors are not uniformly distributed but often originate from a small number of early transition points, after which reasoning remains locally coherent but globally incorrect. These transitions coincide with localized spikes in token-level entropy, and alternative continuations from the same intermediate state can still lead to correct solutions. Based on these observations, we introduce GUARD, a targeted inference-time framework that probes and redirects critical transitions using uncertainty signals. Empirical evaluations across multiple benchmarks confirm that interventions guided by these failure dynamics lead to more reliable reasoning outcomes. Our findings highlight the importance of understanding when and how reasoning first deviates, complementing existing approaches that focus on scaling inference-time computation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、拡張された推論時熟考を通じて高いパフォーマンスを達成するが、それらの推論失敗がどのように発生したかは理解されていない。
モデル生成推論軌跡を解析することにより,誤差は一様分布ではなく,少数の初期遷移点から生じることが判明した。
これらの遷移はトークンレベルのエントロピーの局所的なスパイクと一致し、同じ中間状態からの別の連続は依然として正しい解につながる。
これらの観測に基づいて、不確実性信号を用いて臨界遷移を探索し、リダイレクトするターゲット推論時フレームワークであるGUARDを紹介する。
複数のベンチマークに対する実証的な評価では、これらの障害ダイナミクスによって導かれる介入がより信頼性の高い推論結果をもたらすことが確認されている。
我々の研究は、推論時間計算のスケーリングに重点を置く既存のアプローチを補完し、いつ、どのように推論が逸脱するかを理解することの重要性を強調した。
関連論文リスト
- Early Decisions Matter: Proximity Bias and Initial Trajectory Shaping in Non-Autoregressive Diffusion Language Models [54.16797570104461]
拡散ベースの言語モデル (dLLMs) は自己回帰型言語モデルに代わる有望な代替品として登場した。
時間軸に沿った推論ダイナミクスを系統的に解析し, dLLMの非自己回帰復号化について検討した。
論文 参考訳(メタデータ) (2026-04-12T10:26:41Z) - Early Stopping for Large Reasoning Models via Confidence Dynamics [55.67938134245981]
大きな推論モデルは複雑な問題を解決するために長い連鎖生成に依存している。
重要な課題は、いつモデルが推論を止めて最終回答を生み出すべきかを決定することです。
中間回答の信頼性のダイナミクスを利用して推論をいつ終了するかを判断する早期停止手法であるCoDE-Stopを提案する。
論文 参考訳(メタデータ) (2026-04-06T17:59:45Z) - Mitigating Overthinking in Large Reasoning Language Models via Reasoning Path Deviation Monitoring [35.58177960646011]
LRLMにおける過剰思考を緩和する早期退避法を提案する。
本手法は,既存手法に比べてバニラCoTよりも高い性能向上を実現している。
論文 参考訳(メタデータ) (2026-03-15T07:00:47Z) - Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models [66.36240676392502]
CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。
近年の研究では、ホップ一般化シナリオの推論性能が急落している。
推論過程におけるEPヘッドを動的に識別・非活性化する軽量な介入法である推論の試験時間補正を提案する。
論文 参考訳(メタデータ) (2026-01-29T03:24:32Z) - TRACE: A Framework for Analyzing and Enhancing Stepwise Reasoning in Vision-Language Models [9.607579442309639]
本稿では,トランスペアレント推論と一貫性評価のためのフレームワークであるTRACEを紹介する。
TRACEleverages Auxiliary Reasoning Setsは複雑な問題を分解する。
実験の結果, ARS間の整合性は最終回答の正しさと相関していることがわかった。
TRACEは信頼できない推論パスと信頼できない推論パスを区別する信頼領域を定義する。
論文 参考訳(メタデータ) (2025-12-05T18:40:18Z) - Improving Temporal Understanding Logic Consistency in Video-Language Models via Attention Enhancement [44.654178762186824]
大規模言語モデル(LLM)は、しばしば自己矛盾的な出力を生成する。
ビデオ言語モデル (Video-LLMs) は論理的に言い換えられた質問に対して一貫した応答を提供しない。
本稿では,テンポラリコンディショニング(Temporally Conditioned Attention Sharpening)と呼ばれるアテンション強化手法を提案する。
論文 参考訳(メタデータ) (2025-10-09T12:22:06Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Localisation in quasiperiodic chains: a theory based on convergence of
local propagators [68.8204255655161]
局所プロパゲータの収束に基づく準周期鎖に最も近いホッピングを持つ局所化の理論を提示する。
これらの連続分数の収束、局所化、あるいはその欠如を分析することは可能であり、それによって臨界点とモビリティエッジが帰結する。
結果は、振る舞いの範囲をカバーする3つの準周期モデルの理論を分析することで実証される。
論文 参考訳(メタデータ) (2021-02-18T16:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。