論文の概要: Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
- arxiv url: http://arxiv.org/abs/2509.23365v1
- Date: Sat, 27 Sep 2025 15:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.184881
- Title: Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
- Title(参考訳): 重ね合わせの創発:継続的思考の連鎖のトレーニングダイナミクスを解明する
- Authors: Hanlin Zhu, Shibo Hao, Zhiting Hu, Jiantao Jiao, Stuart Russell, Yuandong Tian,
- Abstract要約: 有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
- 参考スコア(独自算出の注目度): 64.43689151961054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous work shows that the chain of continuous thought (continuous CoT) improves the reasoning capability of large language models (LLMs) by enabling implicit parallel thinking, and a subsequent work provided theoretical insight by showing that a two-layer transformer equipped with continuous CoT can efficiently solve directed graph reachability by maintaining a superposition of multiple reasoning traces in the continuous thought. However, it remains unclear how the superposition mechanism is naturally learned from gradient-based training methods. To fill this gap, we theoretically analyze the training dynamics of a simplified two-layer transformer on the directed graph reachability problem to unveil how the superposition mechanism emerges during training in two training stages -- (i) a thought-generation stage that autoregressively expands the continuous thought, and (ii) a prediction stage that converts the thought into the final answer. Our analysis reveals that during training using continuous thought, the index-matching logit, an important quantity which reflects the strength of the model's local search ability, will first increase and then remain bounded under mild assumptions. The bounded index-matching logit effectively balances exploration and exploitation during the reasoning process: the model will exploit local problem structures to identify plausible search traces, and assign comparable weights to multiple such traces to explore when it is uncertain about which solution is correct, which results in superposition. Our experimental results tracking the growth of logits further validate our theory.
- Abstract(参考訳): 従来, 連続思考(連続CoT)の連鎖は, 暗黙の並列思考を可能とし, 大規模言語モデル(LLM)の推論能力の向上を図っている。
しかし、この重ね合わせ機構が勾配に基づく訓練方法から自然に学習されるかは、まだ不明である。
このギャップを埋めるために、有向グラフ到達性問題における単純化された2層トランスフォーマーのトレーニングダイナミクスを理論的に解析し、2つのトレーニング段階において重畳機構がどのように現れるかを明らかにする。
(i)連続思考を自己回帰的に拡大する思考生成段階、及び
(ii)思考を最終回答に変換する予測段階。
分析の結果,連続的思考を用いた学習では,モデルの局所探索能力の強さを反映した指標マッチングロジットがまず増加し,その後は軽度な仮定の下で拘束されることがわかった。
モデルでは、局所的な問題構造を利用して、妥当な探索トレースを識別し、類似の重み付けを複数のトレースに割り当て、どの解が正しいのかが不確かで、重畳される。
本研究は,ロジットの成長を追及する実験により,我々の理論をさらに検証した。
関連論文リスト
- How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - Rethinking the Chain-of-Thought: The Roles of In-Context Learning and Pre-trained Priors [11.658759174514222]
Chain-of-Thought推論は、モデル推論能力を向上するための重要な方法論として登場した。
本稿では、文脈内学習と事前学習との二重関係の観点から、思考の連鎖的推論の動作メカニズムを考察する。
論文 参考訳(メタデータ) (2025-09-01T08:24:28Z) - Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent [66.78052387054593]
この研究は、トランスフォーマーがシンボリックな多段階推論問題をチェーン・オブ・ソート・プロセスを通してどのように解くかを研究する。
モデルがゴールノードからルートへの経路を出力する後方推論タスクと,より複雑な前方推論タスクである。
訓練された一層変圧器は、木々の一般化を保証することにより、両方の課題を確実に解決できることを示す。
論文 参考訳(メタデータ) (2025-08-11T17:40:47Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Beyond Progress Measures: Theoretical Insights into the Mechanism of Grokking [50.465604300990904]
グロキング(Grokking)とは、オーバーフィッティングの拡張後のテスト精度の急激な改善を指す。
本研究では、素数演算のタスクにおいて、Transformerの基盤となるグルーキング機構について検討する。
論文 参考訳(メタデータ) (2025-04-04T04:42:38Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Transformers Provably Solve Parity Efficiently with Chain of Thought [40.78854925996]
この研究は、複雑な問題を解決するためのトレーニングトランスの最初の理論的解析を提供する。
我々は、基本的な$k$-parity問題を解くために、1層トランスを訓練することを検討する。
論文 参考訳(メタデータ) (2024-10-11T08:55:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。