論文の概要: Transformers learn through gradual rank increase
- arxiv url: http://arxiv.org/abs/2306.07042v2
- Date: Mon, 11 Dec 2023 00:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 02:37:07.177811
- Title: Transformers learn through gradual rank increase
- Title(参考訳): トランスフォーマーは段階的なランクアップを通じて学ぶ
- Authors: Enric Boix-Adsera, Etai Littwin, Emmanuel Abbe, Samy Bengio, Joshua
Susskind
- Abstract要約: 変圧器における漸進的学習のダイナミクスを同定し、トレーニングされた重量と初期重量の違いが徐々にランクを上昇させる。
我々の実験は、この理論を支持し、また、仮定を単純化することなく、実際に現象が発生することを示す。
- 参考スコア(独自算出の注目度): 29.139545909695073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify incremental learning dynamics in transformers, where the
difference between trained and initial weights progressively increases in rank.
We rigorously prove this occurs under the simplifying assumptions of diagonal
weight matrices and small initialization. Our experiments support the theory
and also show that phenomenon can occur in practice without the simplifying
assumptions.
- Abstract(参考訳): 我々は、トレーニングされた重みと初期重みの差が徐々にランクアップするトランスフォーマーにおけるインクリメンタルな学習ダイナミクスを特定する。
我々は、対角行列の単純化と小さな初期化の下で、これを厳密に証明する。
この理論を支持する実験を行い, 仮定を単純化することなく現象を実際に発生させることができることを示した。
関連論文リスト
- Dyson Brownian motion and random matrix dynamics of weight matrices during learning [0.0]
まず、ダイソン・ブラウン運動を用いて、ダイナミクスを汎用的に記述できることを実証する。
レベルは学習率とミニバッチサイズに比例して示される。
次に,初期化時の固有値に対するマルテンコ・パストゥル分布から学習終了時の付加構造との組合せへの進化に続く変圧器の重み行列ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-11-20T18:05:39Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - Mimetic Initialization of Self-Attention Layers [96.88889685873106]
単に自己注意層の重みを初期化して、トレーニング済みのトランスフォーマーのように"見える"ようにすることで、バニラトランスフォーマーのトレーニングを高速化できることに気付きました。
CIFAR-10 や ImageNet などの視覚タスクでは, それぞれ 5% 以上, 4% 以上の精度が向上している。
論文 参考訳(メタデータ) (2023-05-16T22:12:25Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。