論文の概要: Mimetic Initialization of Self-Attention Layers
- arxiv url: http://arxiv.org/abs/2305.09828v1
- Date: Tue, 16 May 2023 22:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:21:41.723185
- Title: Mimetic Initialization of Self-Attention Layers
- Title(参考訳): 自己付着層のミメティック初期化
- Authors: Asher Trockman, J. Zico Kolter
- Abstract要約: 単に自己注意層の重みを初期化して、トレーニング済みのトランスフォーマーのように"見える"ようにすることで、バニラトランスフォーマーのトレーニングを高速化できることに気付きました。
CIFAR-10 や ImageNet などの視覚タスクでは, それぞれ 5% 以上, 4% 以上の精度が向上している。
- 参考スコア(独自算出の注目度): 96.88889685873106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is notoriously difficult to train Transformers on small datasets;
typically, large pre-trained models are instead used as the starting point. We
explore the weights of such pre-trained Transformers (particularly for vision)
to attempt to find reasons for this discrepancy. Surprisingly, we find that
simply initializing the weights of self-attention layers so that they "look"
more like their pre-trained counterparts allows us to train vanilla
Transformers faster and to higher final accuracies, particularly on vision
tasks such as CIFAR-10 and ImageNet classification, where we see gains in
accuracy of over 5% and 4%, respectively. Our initialization scheme is closed
form, learning-free, and very simple: we set the product of the query and key
weights to be approximately the identity, and the product of the value and
projection weights to approximately the negative identity. As this mimics the
patterns we saw in pre-trained Transformers, we call the technique "mimetic
initialization".
- Abstract(参考訳): 小さなデータセットでトランスフォーマーを訓練するのは難しいことで悪名高く、通常、大きな事前訓練されたモデルが出発点として使用される。
このような事前学習されたトランスフォーマー(特にビジョン)の重みを調べ、この相違の原因を見出そうとする。
驚くべきことに、単に自己注意層の重みを初期化して、トレーニング済みのレイヤーのように"見える"ようにすることで、バニラトランスフォーマーを高速にトレーニングし、最終的な精度を高めることができ、特にCIFAR-10やImageNetの分類のような視覚タスクでは、それぞれ5%以上と4%以上の精度が向上することがわかった。
我々の初期化スキームはクローズドな形式であり、学習自由であり、非常に単純である: クエリの積とキーの重みをほぼ同一視し、値と射影の積をほぼ負の恒等性に設定する。
これは、事前学習されたトランスフォーマーに見られるパターンを模倣しているため、このテクニックを"mimetic initialization"と呼んでいる。
関連論文リスト
- Abrupt Learning in Transformers: A Case Study on Matrix Completion [15.210510215283882]
マスク付き言語モデリング(MLM)タスクとして低ランク行列補完問題を定式化する。
BERTモデルをトレーニングして,この課題を低誤差で解決できることが示される。
また、個々のモデルコンポーネントのトレーニングダイナミクスを分析し、突然の損失の減少を理解する。
論文 参考訳(メタデータ) (2024-10-29T17:08:06Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Local to Global: Learning Dynamics and Effect of Initialization for Transformers [20.02103237675619]
我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。
我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-05T08:57:41Z) - Setting the Record Straight on Transformer Oversmoothing [35.125957267464756]
モデル深度が増加するにつれて、トランスフォーマーは過度に滑らかになる。
平滑化挙動は値と射影重みの固有スペクトルに依存することを示す。
解析により,トランスフォーマー更新方程式の重み付けをパラメータ化して平滑化挙動に影響を及ぼす簡単な方法が明らかになった。
論文 参考訳(メタデータ) (2024-01-09T01:19:03Z) - Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。