論文の概要: Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent
- arxiv url: http://arxiv.org/abs/2508.08222v1
- Date: Mon, 11 Aug 2025 17:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.243372
- Title: Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent
- Title(参考訳): 多頭部変圧器は多段階共振をグラディエント・ディフレッシュにより学習する
- Authors: Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi,
- Abstract要約: この研究は、トランスフォーマーがシンボリックな多段階推論問題をチェーン・オブ・ソート・プロセスを通してどのように解くかを研究する。
モデルがゴールノードからルートへの経路を出力する後方推論タスクと,より複雑な前方推論タスクである。
訓練された一層変圧器は、木々の一般化を保証することにより、両方の課題を確実に解決できることを示す。
- 参考スコア(独自算出の注目度): 66.78052387054593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have demonstrated remarkable capabilities in multi-step reasoning tasks. However, understandings of the underlying mechanisms by which they acquire these abilities through training remain limited, particularly from a theoretical standpoint. This work investigates how transformers learn to solve symbolic multi-step reasoning problems through chain-of-thought processes, focusing on path-finding in trees. We analyze two intertwined tasks: a backward reasoning task, where the model outputs a path from a goal node to the root, and a more complex forward reasoning task, where the model implements two-stage reasoning by first identifying the goal-to-root path and then reversing it to produce the root-to-goal path. Our theoretical analysis, grounded in the dynamics of gradient descent, shows that trained one-layer transformers can provably solve both tasks with generalization guarantees to unseen trees. In particular, our multi-phase training dynamics for forward reasoning elucidate how different attention heads learn to specialize and coordinate autonomously to solve the two subtasks in a single autoregressive path. These results provide a mechanistic explanation of how trained transformers can implement sequential algorithmic procedures. Moreover, they offer insights into the emergence of reasoning abilities, suggesting that when tasks are structured to take intermediate chain-of-thought steps, even shallow multi-head transformers can effectively solve problems that would otherwise require deeper architectures.
- Abstract(参考訳): トランスフォーマーは多段階推論タスクにおいて顕著な能力を示した。
しかし、これらの能力を得るメカニズムの理解は、特に理論的な観点からは限定的のままである。
本研究は, 木における経路探索に着目し, チェーン・オブ・ソートプロセスを通じて, シンボル的多段階推論問題の解法を学習する方法について検討する。
モデルがゴールノードからルートへの経路を出力する後方推論タスクと、より複雑な前方推論タスクと、最初にゴール・ツー・ルートの経路を識別し、それを逆転してルート・ツー・ゴールの経路を生成する2段階推論タスクである。
我々の理論的解析は勾配降下の力学に基づいており、訓練された一層変圧器は、目に見えない木への一般化を保証することで、両方の課題を確実に解決できることを示している。
特に,2つのサブタスクを1つの自己回帰経路で解くために,異なるアテンションヘッドが自律的に専門化・コーディネートする方法を,前方推論のための多相トレーニングダイナミクスにより解明する。
これらの結果は、トレーニングされたトランスフォーマーがシーケンシャルなアルゴリズムの手順をどのように実装できるかを機械論的に説明する。
さらに、彼らは推論能力の出現に関する洞察を提供し、タスクが中間的なチェーンのステップを取るように構造化されている場合、浅いマルチヘッドトランスフォーマーでさえ、より深いアーキテクチャを必要とする問題を効果的に解決できることを示唆している。
関連論文リスト
- Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data [4.344634631420729]
強化学習を用いて学習した単一層トランスフォーマーのポリシー勾配ダイナミクスを解析する。
最終回答の正確性のみを訓練しているにもかかわらず、ポリシー勾配はTransformerを構造化された解釈可能なアルゴリズムに収束させる。
論文 参考訳(メタデータ) (2026-01-21T16:36:19Z) - Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought [64.43689151961054]
有向グラフ到達性問題に対する簡易な2層変圧器のトレーニング力学を理論的に解析する。
分析の結果,連続的思考を用いたトレーニングでは,まずインデックスマッチングロジットが増加し,その後は軽度な仮定の下で拘束されることがわかった。
論文 参考訳(メタデータ) (2025-09-27T15:23:46Z) - Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。
マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文 参考訳(メタデータ) (2025-06-02T17:39:31Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。
我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文 参考訳(メタデータ) (2025-05-02T00:07:35Z) - A Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning [16.65073455206535]
複数の事実を組み合わせて解を得る必要のある最小命題論理問題について検討する。
この問題をMistral と Gemma モデルで研究することにより、最大27B のパラメータで、モデルがそのような論理問題を解くのに使用するコアコンポーネントを照らし出す。
異なるレイヤにおける注意頭の役割について、きめ細かい洞察を提供する。
論文 参考訳(メタデータ) (2024-11-06T18:35:32Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。
我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。
トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文 参考訳(メタデータ) (2024-05-23T21:42:19Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。