論文の概要: Mimetic Initialization of Self-Attention Layers
- arxiv url: http://arxiv.org/abs/2305.09828v1
- Date: Tue, 16 May 2023 22:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 18:21:41.723185
- Title: Mimetic Initialization of Self-Attention Layers
- Title(参考訳): 自己付着層のミメティック初期化
- Authors: Asher Trockman, J. Zico Kolter
- Abstract要約: 単に自己注意層の重みを初期化して、トレーニング済みのトランスフォーマーのように"見える"ようにすることで、バニラトランスフォーマーのトレーニングを高速化できることに気付きました。
CIFAR-10 や ImageNet などの視覚タスクでは, それぞれ 5% 以上, 4% 以上の精度が向上している。
- 参考スコア(独自算出の注目度): 96.88889685873106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is notoriously difficult to train Transformers on small datasets;
typically, large pre-trained models are instead used as the starting point. We
explore the weights of such pre-trained Transformers (particularly for vision)
to attempt to find reasons for this discrepancy. Surprisingly, we find that
simply initializing the weights of self-attention layers so that they "look"
more like their pre-trained counterparts allows us to train vanilla
Transformers faster and to higher final accuracies, particularly on vision
tasks such as CIFAR-10 and ImageNet classification, where we see gains in
accuracy of over 5% and 4%, respectively. Our initialization scheme is closed
form, learning-free, and very simple: we set the product of the query and key
weights to be approximately the identity, and the product of the value and
projection weights to approximately the negative identity. As this mimics the
patterns we saw in pre-trained Transformers, we call the technique "mimetic
initialization".
- Abstract(参考訳): 小さなデータセットでトランスフォーマーを訓練するのは難しいことで悪名高く、通常、大きな事前訓練されたモデルが出発点として使用される。
このような事前学習されたトランスフォーマー(特にビジョン)の重みを調べ、この相違の原因を見出そうとする。
驚くべきことに、単に自己注意層の重みを初期化して、トレーニング済みのレイヤーのように"見える"ようにすることで、バニラトランスフォーマーを高速にトレーニングし、最終的な精度を高めることができ、特にCIFAR-10やImageNetの分類のような視覚タスクでは、それぞれ5%以上と4%以上の精度が向上することがわかった。
我々の初期化スキームはクローズドな形式であり、学習自由であり、非常に単純である: クエリの積とキーの重みをほぼ同一視し、値と射影の積をほぼ負の恒等性に設定する。
これは、事前学習されたトランスフォーマーに見られるパターンを模倣しているため、このテクニックを"mimetic initialization"と呼んでいる。
関連論文リスト
- Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - Transformers learn through gradual rank increase [29.139545909695073]
変圧器における漸進的学習のダイナミクスを同定し、トレーニングされた重量と初期重量の違いが徐々にランクを上昇させる。
我々の実験は、この理論を支持し、また、仮定を単純化することなく、実際に現象が発生することを示す。
論文 参考訳(メタデータ) (2023-06-12T11:41:42Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point
Modeling [104.82953953453503]
BERTの概念を3Dポイントクラウドに一般化するための新しいパラダイムであるPoint-BERTを提案する。
提案したBERTスタイルの事前学習戦略は,標準点クラウドトランスフォーマーの性能を著しく向上することを示す実験である。
論文 参考訳(メタデータ) (2021-11-29T18:59:03Z) - On Layer Normalization in the Transformer Architecture [112.40350994368741]
まず,学習速度のウォームアップが重要である理由を理論的に検討し,レイヤー正規化の位置が重要であることを示す。
ウォームアップステージのないPre-LNトランスフォーマーはベースラインと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-12T00:33:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。