論文の概要: Understanding the Staged Dynamics of Transformers in Learning Latent Structure
- arxiv url: http://arxiv.org/abs/2511.19328v1
- Date: Mon, 24 Nov 2025 17:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.338803
- Title: Understanding the Staged Dynamics of Transformers in Learning Latent Structure
- Title(参考訳): 潜時構造学習における変圧器の段階的ダイナミクスの理解
- Authors: Rohan Saha, Farzane Aminmansour, Alona Fyshe,
- Abstract要約: 3つのタスクバリアントに対して,デコーダのみの小さなトランスをトレーニングする。
モデルが個々の段階で能力を取得することを示す。
また、モデルが基本規則をしっかりと構成できる重要な非対称性も同定するが、基本規則を発見するために複雑な例を分解するのに苦労する。
- 参考スコア(独自算出の注目度): 5.944972519558522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While transformers can discover latent structure from context, the dynamics of how they acquire different components of the latent structure remain poorly understood. In this work, we use the Alchemy benchmark, to investigate the dynamics of latent structure learning. We train a small decoder-only transformer on three task variants: 1) inferring missing rules from partial contextual information, 2) composing simple rules to solve multi-step sequences, and 3) decomposing complex multi-step examples to infer intermediate steps. By factorizing each task into interpretable events, we show that the model acquires capabilities in discrete stages, first learning the coarse grained rules, before learning the complete latent structure. We also identify a crucial asymmetry, where the model can compose fundamental rules robustly, but struggles to decompose complex examples to discover the fundamental rules. These findings offer new insights into understanding how a transformer model learns latent structures, providing a granular view of how these capabilities evolve during training.
- Abstract(参考訳): 変圧器は文脈から潜伏構造を発見することができるが、潜伏構造の異なる成分の獲得方法のダイナミクスはいまだに理解されていない。
本研究では、Alchemyベンチマークを用いて、潜在構造学習のダイナミクスについて検討する。
3つのタスクバリアントで、小さなデコーダのみの変換器をトレーニングします。
1)部分的文脈情報から欠落規則を推測すること。
2 複数段階の順序を解くための簡単な規則を構成すること、及び
3) 複雑な多段階の例を分解して中間段階を推測する。
各タスクを解釈可能なイベントに分解することにより、モデルが個別の段階で能力を取得し、まず粗い粒度の規則を学習し、次に完全な潜在構造を学習することを示す。
また、モデルが基本規則をしっかりと構成できる重要な非対称性も同定するが、基本規則を発見するために複雑な例を分解するのに苦労する。
これらの発見は、トランスフォーマーモデルが潜在構造をどのように学習するかを理解するための新たな洞察を与え、トレーニング中にこれらの能力がどのように進化するかの詳細なビューを提供する。
関連論文リスト
- Disentangling Feature Structure: A Mathematically Provable Two-Stage Training Dynamics in Transformers [18.662154648423087]
本稿では, 変圧器における2段階トレーニングのダイナミクスについて理論的に検証する。
我々の知る限り、これはトランスにおける特徴レベルの2段階最適化プロセスに関する最初の厳密な結果である。
論文 参考訳(メタデータ) (2025-02-28T03:27:24Z) - Structure Development in List-Sorting Transformers [0.0]
本研究では,一層アテンションのみの変換器が,数列のソートを学習しながら,関連する構造をどのように発達させるかを検討する。
トレーニングの終わりに、モデルは注意を2つのモードで整理し、語彙分割と複写圧縮と呼ぶ。
論文 参考訳(メタデータ) (2025-01-30T15:56:25Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Counting in Small Transformers: The Delicate Interplay between Attention and Feed-Forward Layers [16.26331213222281]
我々は、ヒストグラムタスクに取り組む際に実装される単純なトランスフォーマーブロックの解を分析する。
このタスクは、予測性能、語彙と埋め込みサイズ、トークン混合機構、フィードフォワード層容量の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2024-07-16T09:48:10Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Initialization is Critical to Whether Transformers Fit Composite Functions by Reasoning or Memorizing [10.206921909332006]
トランスフォーマーは様々なタスクにわたって印象的な能力を示してきたが、構成問題におけるパフォーマンスは議論の的となっている。
パラメータ初期化尺度は、モデルが推論(推論に基づく)解を学習するかどうかを決定する上で重要な役割を果たす。
さらに、推論(推論に基づく)ソリューションは、複雑さのバイアスが低く、単一のアンカーに対する個々のマッピングを学習できる重要な要素である、と仮定する。
論文 参考訳(メタデータ) (2024-05-08T20:23:24Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。