論文の概要: The underlying structures of self-attention: symmetry, directionality, and emergent dynamics in Transformer training
- arxiv url: http://arxiv.org/abs/2502.10927v1
- Date: Sat, 15 Feb 2025 23:08:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:09:55.348743
- Title: The underlying structures of self-attention: symmetry, directionality, and emergent dynamics in Transformer training
- Title(参考訳): 変圧器訓練における自己注意の基盤構造:対称性,方向性,創発的ダイナミクス
- Authors: Matteo Saponati, Pascal Sager, Pau Vilimelis Aceituno, Thilo Stadelmann, Benjamin Grewe,
- Abstract要約: 重み更新を規定する構造を導出することにより自己注意行列を解析する。
両方向トレーニングは重み行列の対称性を誘導し,自己回帰トレーニングは方向性や列優位性をもたらすことを示す。
この分析は、情報の自己認識による埋め込みに関する新しい理論的視点を提供し、トランスフォーマーモデルの解釈可能性を改善する。
- 参考スコア(独自算出の注目度): 1.564538938595125
- License:
- Abstract: Self-attention is essential to Transformer architectures, yet how information is embedded in the self-attention matrices and how different objective functions impact this process remains unclear. We present a mathematical framework to analyze self-attention matrices by deriving the structures governing their weight updates. Using this framework, we demonstrate that bidirectional training induces symmetry in the weight matrices, while autoregressive training results in directionality and column dominance. Our theoretical findings are validated across multiple Transformer models - including ModernBERT, GPT, LLaMA3, and Mistral - and input modalities like text, vision, and audio. Finally, we apply these insights by showing that symmetric initialization improves the performance of encoder-only models on language tasks. This mathematical analysis offers a novel theoretical perspective on how information is embedded through self-attention, thereby improving the interpretability of Transformer models.
- Abstract(参考訳): トランスフォーマーアーキテクチャには自己意識が不可欠だが、情報がどのように自己意識行列に埋め込まれているか、また、このプロセスにどう影響するかは、まだ不明である。
本稿では,重み更新を規定する構造を導出することにより,自己注意行列を解析するための数学的枠組みを提案する。
この枠組みを用いて、双方向トレーニングは重み行列の対称性を誘導し、自己回帰トレーニングは方向性および列優位性をもたらすことを示した。
理論的な結果は、ModernBERT、GPT、LLaMA3、Mistralを含む複数のTransformerモデルと、テキスト、ビジョン、オーディオなどの入力モダリティで検証されている。
最後に、これらの知見を適用し、対称初期化が言語タスクにおけるエンコーダのみのモデルの性能を向上させることを示す。
この数学的解析は、情報の自己認識による埋め込みに関する新しい理論的視点を提供し、トランスフォーマーモデルの解釈可能性を改善する。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - A Unified Framework to Enforce, Discover, and Promote Symmetry in Machine Learning [5.1105250336911405]
機械学習モデルに対称性を組み込むための統一理論および方法論の枠組みを提供する。
対称性の強制と発見は、リー微分の双線型構造に対して双対である線形代数的タスクであることを示す。
本稿では、リー微分と核ノルム緩和に基づく凸正規化関数のクラスを導入することで対称性を促進する新しい方法を提案する。
論文 参考訳(メタデータ) (2023-11-01T01:19:54Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Tensor-based Sequential Learning via Hankel Matrix Representation for
Next Item Recommendations [0.0]
自己注意型トランスフォーマーモデルは、次の項目の推薦タスクを非常に効率的に解くことが示されている。
学習パラメータ空間の特別な構造に動機付けられ、それに代わるより軽量なアプローチでそれを模倣できるかどうかを疑問視する。
学習プロセス内のシーケンシャルデータに関する構造的知識を生かしたテンソル分解に基づく新しいモデルを開発する。
論文 参考訳(メタデータ) (2022-12-12T05:55:40Z) - Convexifying Transformers: Improving optimization and understanding of
transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。
まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。
凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文 参考訳(メタデータ) (2022-11-20T18:17:47Z) - Sample Efficient Dynamics Learning for Symmetrical Legged
Robots:Leveraging Physics Invariance and Geometric Symmetries [14.848950116410231]
本稿では,基礎となるロボットシステムにおける対称性を利用したダイナミクスの学習手法を提案する。
ベクトル空間における全てのデータを表す既存のフレームワークは、ロボットの構造化情報を考えるのに失敗する。
論文 参考訳(メタデータ) (2022-10-13T19:57:46Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。