論文の概要: Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent
- arxiv url: http://arxiv.org/abs/2508.08222v1
- Date: Mon, 11 Aug 2025 17:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.243372
- Title: Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent
- Title(参考訳): 多頭部変圧器は多段階共振をグラディエント・ディフレッシュにより学習する
- Authors: Tong Yang, Yu Huang, Yingbin Liang, Yuejie Chi,
- Abstract要約: この研究は、トランスフォーマーがシンボリックな多段階推論問題をチェーン・オブ・ソート・プロセスを通してどのように解くかを研究する。
モデルがゴールノードからルートへの経路を出力する後方推論タスクと,より複雑な前方推論タスクである。
訓練された一層変圧器は、木々の一般化を保証することにより、両方の課題を確実に解決できることを示す。
- 参考スコア(独自算出の注目度): 66.78052387054593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have demonstrated remarkable capabilities in multi-step reasoning tasks. However, understandings of the underlying mechanisms by which they acquire these abilities through training remain limited, particularly from a theoretical standpoint. This work investigates how transformers learn to solve symbolic multi-step reasoning problems through chain-of-thought processes, focusing on path-finding in trees. We analyze two intertwined tasks: a backward reasoning task, where the model outputs a path from a goal node to the root, and a more complex forward reasoning task, where the model implements two-stage reasoning by first identifying the goal-to-root path and then reversing it to produce the root-to-goal path. Our theoretical analysis, grounded in the dynamics of gradient descent, shows that trained one-layer transformers can provably solve both tasks with generalization guarantees to unseen trees. In particular, our multi-phase training dynamics for forward reasoning elucidate how different attention heads learn to specialize and coordinate autonomously to solve the two subtasks in a single autoregressive path. These results provide a mechanistic explanation of how trained transformers can implement sequential algorithmic procedures. Moreover, they offer insights into the emergence of reasoning abilities, suggesting that when tasks are structured to take intermediate chain-of-thought steps, even shallow multi-head transformers can effectively solve problems that would otherwise require deeper architectures.
- Abstract(参考訳): トランスフォーマーは多段階推論タスクにおいて顕著な能力を示した。
しかし、これらの能力を得るメカニズムの理解は、特に理論的な観点からは限定的のままである。
本研究は, 木における経路探索に着目し, チェーン・オブ・ソートプロセスを通じて, シンボル的多段階推論問題の解法を学習する方法について検討する。
モデルがゴールノードからルートへの経路を出力する後方推論タスクと、より複雑な前方推論タスクと、最初にゴール・ツー・ルートの経路を識別し、それを逆転してルート・ツー・ゴールの経路を生成する2段階推論タスクである。
我々の理論的解析は勾配降下の力学に基づいており、訓練された一層変圧器は、目に見えない木への一般化を保証することで、両方の課題を確実に解決できることを示している。
特に,2つのサブタスクを1つの自己回帰経路で解くために,異なるアテンションヘッドが自律的に専門化・コーディネートする方法を,前方推論のための多相トレーニングダイナミクスにより解明する。
これらの結果は、トレーニングされたトランスフォーマーがシーケンシャルなアルゴリズムの手順をどのように実装できるかを機械論的に説明する。
さらに、彼らは推論能力の出現に関する洞察を提供し、タスクが中間的なチェーンのステップを取るように構造化されている場合、浅いマルチヘッドトランスフォーマーでさえ、より深いアーキテクチャを必要とする問題を効果的に解決できることを示唆している。
関連論文リスト
- Transformers as Multi-task Learners: Decoupling Features in Hidden Markov Models [12.112842686827669]
トランスフォーマーベースのモデルは、幅広いタスクにわたってシーケンス学習において顕著な能力を示している。
マルチタスク一般化能力の基盤となるメカニズムを明らかにするために,トランスフォーマーの階層的挙動について検討する。
我々の明示的な構成は経験的観察と密接に一致し、様々なタスクにわたるシーケンス学習におけるトランスフォーマーの有効性と効率の理論的支援を提供する。
論文 参考訳(メタデータ) (2025-06-02T17:39:31Z) - How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。
我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文 参考訳(メタデータ) (2025-05-02T00:07:35Z) - A Implies B: Circuit Analysis in LLMs for Propositional Logical Reasoning [16.65073455206535]
複数の事実を組み合わせて解を得る必要のある最小命題論理問題について検討する。
この問題をMistral と Gemma モデルで研究することにより、最大27B のパラメータで、モデルがそのような論理問題を解くのに使用するコアコンポーネントを照らし出す。
異なるレイヤにおける注意頭の役割について、きめ細かい洞察を提供する。
論文 参考訳(メタデータ) (2024-11-06T18:35:32Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。