論文の概要: Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.21214v1
- Date: Thu, 29 Jan 2026 03:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.54411
- Title: Scaling Reasoning Hop Exposes Weaknesses: Demystifying and Improving Hop Generalization in Large Language Models
- Title(参考訳): スケールする推論ホップは弱さを露呈する: 大規模言語モデルにおけるホップ一般化の最小化と改善
- Authors: Zhaoyi Li, Jiatong Li, Gangwei Jiang, Linqi Song, Defu Lian, Ying Wei,
- Abstract要約: CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。
近年の研究では、ホップ一般化シナリオの推論性能が急落している。
推論過程におけるEPヘッドを動的に識別・非活性化する軽量な介入法である推論の試験時間補正を提案する。
- 参考スコア(独自算出の注目度): 66.36240676392502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-thought (CoT) reasoning has become the standard paradigm for enabling Large Language Models (LLMs) to solve complex problems. However, recent studies reveal a sharp performance drop in reasoning hop generalization scenarios, where the required number of reasoning steps exceeds training distributions while the underlying algorithm remains unchanged. The internal mechanisms driving this failure remain poorly understood. In this work, we conduct a systematic study on tasks from multiple domains, and find that errors concentrate at token positions of a few critical error types, rather than being uniformly distributed. Closer inspection reveals that these token-level erroneous predictions stem from internal competition mechanisms: certain attention heads, termed erroneous processing heads (ep heads), tip the balance by amplifying incorrect reasoning trajectories while suppressing correct ones. Notably, removing individual ep heads during inference can often restore the correct predictions. Motivated by these insights, we propose test-time correction of reasoning, a lightweight intervention method that dynamically identifies and deactivates ep heads in the reasoning process. Extensive experiments across different tasks and LLMs show that it consistently improves reasoning hop generalization, highlighting both its effectiveness and potential.
- Abstract(参考訳): CoT(Chain-of- Thought)推論は、LLM(Large Language Models)が複雑な問題を解決するための標準パラダイムとなっている。
しかし、最近の研究では、基礎となるアルゴリズムが変わらず、必要な推論ステップの数がトレーニング分布を超えるという、ホップ一般化シナリオの推論性能の急落が明らかにされている。
この失敗を誘発する内部メカニズムはいまだに理解されていない。
本研究では,複数の領域からのタスクを系統的に研究し,エラーが一様に分散されるのではなく,いくつかの重要なエラータイプのトークン位置に集中していることを見出した。
クローズドインスペクションにより、これらのトークンレベルの誤予測は内部競合機構に起因していることが明らかとなった: 特定の注意頭、誤処理ヘッド(ep head)と呼ばれ、誤った推論軌道を増幅し、正しい推論を抑えることでバランスを崩す。
特に、推論中に個々のepヘッドを削除することは、しばしば正しい予測を復元することができる。
本研究の目的は, 推論過程におけるEPヘッドの動的同定と非活性化を行う軽量な介入法である, 推論の試験時間補正を提案することである。
様々なタスクやLLMにわたる広範な実験により、推論ホップの一般化は一貫して改善され、その効果と可能性の両方が強調される。
関連論文リスト
- Addressing Overthinking in Large Vision-Language Models via Gated Perception-Reasoning Optimization [56.59356959631999]
Gated Perception-Reasoning Optimization (GPRO) は3つの決定経路間で動的に計算をルーティングするメタ推論コントローラである。
GPROは精度と効率を大幅に改善し、最近のスロー思考法よりも優れている。
論文 参考訳(メタデータ) (2026-01-07T23:05:17Z) - How and Why LLMs Generalize: A Fine-Grained Analysis of LLM Reasoning from Cognitive Behaviors to Low-Level Patterns [51.02752099869218]
大きな言語モデル(LLM)は、非常に異なる一般化の振る舞いを示す。
推論を原子核スキルに分解する新しいベンチマークを導入する。
SFTモデルはよりシャープなドリフトと表面パターンへの過度な適合を示すのに対し、RL型モデルはより安定した行動プロファイルを維持し、推論スキルの崩壊に抵抗することを示す。
論文 参考訳(メタデータ) (2025-12-30T08:16:20Z) - Failure by Interference: Language Models Make Balanced Parentheses Errors When Faulty Mechanisms Overshadow Sound Ones [13.381339115567288]
言語モデル(LM)は、バランスの取れた括弧を生成するといった単純な構文的タスクに苦戦している。
本研究により,LMは独立して予測を行う多くのコンポーネントに依存していることが明らかとなった。
本稿では,モデル性能向上のための信頼性の高いコンポーネントの貢献を体系的に同定し,向上するためのステアリング手法であるRASteerを紹介する。
論文 参考訳(メタデータ) (2025-06-30T23:35:19Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning [62.23671919314693]
大規模言語モデル (LLM) は文脈理解において著しく改善されている。
しかし、長いコンテキストの推論と生成の間に真に重要な情報に出席する能力は、まだペースの遅れています。
本稿では,2段階のフレームワークであるLearning to Focus(LeaF)を導入し,コンバウンディング要因を緩和する。
論文 参考訳(メタデータ) (2025-06-09T15:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。