論文の概要: Training-Induced Escape from Token Clustering in a Mean-Field Formulation of Transformers
- arxiv url: http://arxiv.org/abs/2605.07772v1
- Date: Fri, 08 May 2026 14:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.102787
- Title: Training-Induced Escape from Token Clustering in a Mean-Field Formulation of Transformers
- Title(参考訳): 変圧器の平均定式化におけるトーケンクラスタリングからの訓練による脱出
- Authors: Noboru Isobe, Daisuke Inoue, Masaaki Imaizumi,
- Abstract要約: トランスフォーマーは、層間でトークン表現を反復的に変換することで推論を行う。
トランスフォーマー力学の最近の平均場理論は、どのようにトークン分布をクラスタリングに導くかを説明する。
本稿では,パラメータ線形FFNのみをL2$正規化の下でトレーニングする雑音平均場変換器を用いて,この問題を考察する。
- 参考スコア(独自算出の注目度): 8.121538475202494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers perform inference by iteratively transforming token representations across layers. This layerwise computation has been studied empirically, and recent mean-field theories of Transformer dynamics explain how attention can drive token distributions toward clustering. However, existing mean-field analyses largely treat model parameters as prescribed, leaving open how training reshapes this clustering picture. We study this question in a noisy mean-field Transformer in which only a parameter-linear FFN is trained under $L^2$ regularization. We find and analyze a training-induced phase in the dynamics: after initially following attention-driven clustering, the token distribution can leave the clustered regime near the final layers. Our mathematical analysis is based on an entropy-regularized interaction energy that captures the clustering bias of attention. More broadly, our results point toward a training-aware mean-field theory of Transformer dynamics, in which training and inference dynamics are treated together.
- Abstract(参考訳): トランスフォーマーは、層間でトークン表現を反復的に変換することで推論を行う。
この階層計算は経験的に研究されており、トランスフォーマー力学の最近の平均場理論は、どのようにトークン分布をクラスタリングに向けて駆動するかを説明している。
しかし、既存の平均場解析は、モデルパラメータを主に所定のものとして扱い、トレーニングがクラスタリングのイメージをどう再認識するかをオープンにしておく。
本稿では,パラメータ線形FFNのみをL^2$正規化の下で訓練した雑音平均場変換器を用いて,この問題を考察する。
注意駆動型クラスタリングを最初に実行した後、トークン分布は最終層の近くにクラスタ化された状態を残すことができる。
我々の数学的解析は、注目のクラスタリングバイアスを捉えるエントロピー規則化された相互作用エネルギーに基づいている。
より広範に、この結果はトランスフォーマーダイナミクスのトレーニングを意識した平均場理論に向けられ、トレーニングと推論のダイナミクスが一緒に扱われる。
関連論文リスト
- The Mean-Field Dynamics of Transformers [6.008788032203683]
球面への注意を理想化することにより、トランスフォーマーダイナミクスをワッサーシュタイン勾配流(Kuramoto)と平均シフトクラスタリングに接続する。
その結果、表現の崩壊を促進するメカニズムと、深層アーキテクチャにおける表現力に富んだマルチクラスタ構造を維持する体制の両方を強調した。
論文 参考訳(メタデータ) (2025-12-01T16:51:00Z) - Asymptotic Study of In-context Learning with Random Transformers through Equivalent Models [8.135786025034626]
非線形回帰の設定において,事前学習したトランスフォーマーの文脈内学習能力について検討する。
ランダムトランスフォーマーはICL誤差の観点から有限次ヘルミットモデルと等価に振る舞うことを示す。
論文 参考訳(メタデータ) (2025-09-18T16:57:27Z) - How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。
我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文 参考訳(メタデータ) (2025-05-02T00:07:35Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Learning stochastic dynamics and predicting emergent behavior using
transformers [0.0]
ニューラルネットワークは,システムの1つの動的軌跡を観察することにより,システムの動的規則を学習可能であることを示す。
我々はモデルの1つの軌道上でトランスフォーマーと呼ばれるニューラルネットワークを訓練する。
変換器は、速度の明示的な列挙や構成空間の粗粒化なしに観察から動的規則を学習する柔軟性を持つ。
論文 参考訳(メタデータ) (2022-02-17T15:27:21Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。