論文の概要: Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training
- arxiv url: http://arxiv.org/abs/2509.25758v1
- Date: Tue, 30 Sep 2025 04:23:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.014056
- Title: Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training
- Title(参考訳): 思考の火花!:訓練中の推論モデルにおける創発的注意頭
- Authors: Yein Park, Minbyul Jeong, Jaewoo Kang,
- Abstract要約: 複雑な推論のためのポストトレーニングは、新規で機能的に専門化された注目の頭が出現するきっかけとなることを示す。
これらのヘッドは、構造化推論と計算をサポートする。
制御可能なシンク/オフモデルには、専用のシンクヘッドがないことが分かっています。
- 参考スコア(独自算出の注目度): 20.148778622419503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable capabilities of modern large reasoning models are largely unlocked through post-training techniques such as supervised fine-tuning and reinforcement learning. However, the architectural mechanisms behind such improvements remain largely opaque. In this work, we use circuit analysis to demonstrate that post-training for complex reasoning sparks the emergence of novel, functionally specialized attention heads. These heads collectively support structured reasoning and computation. Our comparative analysis across Qwen families and DeepSeek-distilled model reveals that these emergent heads evolve differently under different training regimes. Distillation and SFT foster a cumulative addition of stable reasoning heads. In contrast, group relative policy optimization operates in a dynamic search mode: relatively few attention heads are iteratively activated, evaluated, and pruned, with their survival closely tracking fluctuations in the task reward signal. Furthermore, we find that controllable think on/off models do not possess dedicated thinking heads. Instead, turning off explicit reasoning triggers a broader-but less efficient-set of compensatory heads. Through ablation and qualitative analyses, we connect these circuit-level dynamics to a crucial performance trade-off: strengthened heads enable sophisticated problem-solving strategies for difficult problems but can also introduce over-thinking failure modes, such as calculation errors or logical loops on simpler tasks. These findings connect circuit-level dynamics to macro-level performance, identifying an inherent tension where complex reasoning comes at the cost of elementary computations. More broadly, our work points to future directions for training policy design, emphasizing the need to balance the development of effective reasoning strategies with the assurance of reliable, flawless execution.
- Abstract(参考訳): 現代の大規模推論モデルの顕著な能力は、教師付き微調整や強化学習のようなポストトレーニング技術によって大きく解放されている。
しかし、このような改善の背景にあるアーキテクチャメカニズムは、いまだに不透明である。
本研究では,回路解析を用いて,複雑な推論のためのポストトレーニングが,新規で機能的特化された注目ヘッドの出現を誘発することを示す。
これらのヘッドは、構造化推論と計算をサポートする。
QwenファミリーとDeepSeekを蒸留したモデルを比較すると、これらの頭は異なる訓練体制下で異なる進化を遂げていることがわかる。
蒸留とSFTは安定な推論ヘッドの累積付加を促進する。
これとは対照的に、グループ相対ポリシー最適化は動的検索モードで動作し、比較的少ない注意頭が反復的に活性化され、評価され、切断され、タスク報酬信号の揺らぎを忠実に追跡する。
さらに、制御可能なシンク/オフモデルには専用のシンクヘッドがないことが判明した。
代わりに、明示的な推論をオフにすると、より広いが効率の低い補償ヘッドがトリガーされる。
強化されたヘッドは、困難な問題に対して高度な問題解決戦略を可能にすると同時に、計算エラーや単純なタスクにおける論理ループなどの過度な失敗モードも導入できる。
これらの結果は、回路レベルのダイナミクスとマクロレベルのパフォーマンスを結びつけ、複雑な推論が基礎計算のコストで生じる固有の緊張を識別する。
より広範に、当社の作業は、効果的な推論戦略の開発と信頼性、欠陥のない実行の保証のバランスをとる必要性を強調しながら、政策設計の今後の方向性を指している。
関連論文リスト
- Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Let LLMs Break Free from Overthinking via Self-Braking Tuning [60.08396797526657]
大きな推論モデル(LRM)は思考の長い連鎖を生成することによって推論能力を著しく向上させた。
この性能向上は、生成プロセス中の冗長な推論を大幅に増加させるコストが伴う。
本稿では、モデルが独自の推論プロセスを制御することを許容する観点から、過度に検討する新しいフレームワーク、Self-Braking Tuning(SBT)を提案する。
論文 参考訳(メタデータ) (2025-05-20T16:53:40Z) - Diving into Self-Evolving Training for Multimodal Reasoning [36.70979791148913]
自己進化的トレインは複雑な推論タスクの鍵となるアプローチとして登場した。
本稿では,強化学習のレンズによるマルチモーダル推論のための自己進化学習を再構成する。
M-STARは、様々なサイズと多様なベンチマークのモデル間で一貫したパフォーマンス向上を実現するフレームワークである。
論文 参考訳(メタデータ) (2024-12-23T10:18:41Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Decentralized Adversarial Training over Graphs [44.03711922549992]
近年、敵攻撃に対する機械学習モデルの脆弱性が注目されている。
マルチエージェントシステムのための分散逆数フレームワークを開発する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。