論文の概要: Transformers learn through gradual rank increase
- arxiv url: http://arxiv.org/abs/2306.07042v2
- Date: Mon, 11 Dec 2023 00:23:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 02:37:07.177811
- Title: Transformers learn through gradual rank increase
- Title(参考訳): トランスフォーマーは段階的なランクアップを通じて学ぶ
- Authors: Enric Boix-Adsera, Etai Littwin, Emmanuel Abbe, Samy Bengio, Joshua
Susskind
- Abstract要約: 変圧器における漸進的学習のダイナミクスを同定し、トレーニングされた重量と初期重量の違いが徐々にランクを上昇させる。
我々の実験は、この理論を支持し、また、仮定を単純化することなく、実際に現象が発生することを示す。
- 参考スコア(独自算出の注目度): 29.139545909695073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We identify incremental learning dynamics in transformers, where the
difference between trained and initial weights progressively increases in rank.
We rigorously prove this occurs under the simplifying assumptions of diagonal
weight matrices and small initialization. Our experiments support the theory
and also show that phenomenon can occur in practice without the simplifying
assumptions.
- Abstract(参考訳): 我々は、トレーニングされた重みと初期重みの差が徐々にランクアップするトランスフォーマーにおけるインクリメンタルな学習ダイナミクスを特定する。
我々は、対角行列の単純化と小さな初期化の下で、これを厳密に証明する。
この理論を支持する実験を行い, 仮定を単純化することなく現象を実際に発生させることができることを示した。
関連論文リスト
- Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文 参考訳(メタデータ) (2024-03-05T01:30:34Z) - Transformers learn to implement preconditioned gradient descent for
in-context learning [41.74394657009037]
いくつかの最近の研究は、変圧器が勾配降下のようなアルゴリズムを実装できることを実証している。
トランスフォーマーは、ランダムな問題インスタンスをトレーニングすることで、そのようなアルゴリズムの実装を学べますか?
注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を具現化する訓練対象の臨界点が証明される。
論文 参考訳(メタデータ) (2023-06-01T02:35:57Z) - Mimetic Initialization of Self-Attention Layers [96.88889685873106]
単に自己注意層の重みを初期化して、トレーニング済みのトランスフォーマーのように"見える"ようにすることで、バニラトランスフォーマーのトレーニングを高速化できることに気付きました。
CIFAR-10 や ImageNet などの視覚タスクでは, それぞれ 5% 以上, 4% 以上の精度が向上している。
論文 参考訳(メタデータ) (2023-05-16T22:12:25Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。