論文の概要: Stabilizing Transformer Training by Preventing Attention Entropy
Collapse
- arxiv url: http://arxiv.org/abs/2303.06296v1
- Date: Sat, 11 Mar 2023 03:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:57:06.419233
- Title: Stabilizing Transformer Training by Preventing Attention Entropy
Collapse
- Title(参考訳): 注意エントロピー崩壊防止による変圧器訓練の安定化
- Authors: Shuangfei Zhai, Tatiana Likhomanenko, Etai Littwin, Dan Busbridge,
Jason Ramapuram, Yizhe Zhang, Jiatao Gu, Josh Susskind
- Abstract要約: トレーニング中の各注意ヘッドの注意エントロピーは,モデルシャープネスの指標である。
異なるアーキテクチャやタスクに共通するパターンを特定し、注意の低いエントロピーには高いトレーニング不安定が伴う。
スペクトル正規化と学習スカラーを加味してすべての線形層を再パラメータ化する,単純かつ効率的な解を提案する。
- 参考スコア(独自算出の注目度): 56.45313891694746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training stability is of great importance to Transformers. In this work, we
investigate the training dynamics of Transformers by examining the evolution of
the attention layers. In particular, we track the attention entropy for each
attention head during the course of training, which is a proxy for model
sharpness. We identify a common pattern across different architectures and
tasks, where low attention entropy is accompanied by high training instability,
which can take the form of oscillating loss or divergence. We denote the
pathologically low attention entropy, corresponding to highly concentrated
attention scores, as $\textit{entropy collapse}$. As a remedy, we propose
$\sigma$Reparam, a simple and efficient solution where we reparametrize all
linear layers with spectral normalization and an additional learned scalar. We
demonstrate that the proposed reparameterization successfully prevents entropy
collapse in the attention layers, promoting more stable training. Additionally,
we prove a tight lower bound of the attention entropy, which decreases
exponentially fast with the spectral norm of the attention logits, providing
additional motivation for our approach. We conduct experiments with
$\sigma$Reparam on image classification, image self-supervised learning,
machine translation, automatic speech recognition, and language modeling tasks,
across Transformer architectures. We show that $\sigma$Reparam provides
stability and robustness with respect to the choice of hyperparameters, going
so far as enabling training (a) a Vision Transformer to competitive performance
without warmup, weight decay, layer normalization or adaptive optimizers; (b)
deep architectures in machine translation and (c) speech recognition to
competitive performance without warmup and adaptive optimizers.
- Abstract(参考訳): トレーニングの安定性はトランスフォーマーにとって非常に重要です。
本研究では,注意層の進化を考察し,変圧器のトレーニングダイナミクスについて検討する。
特に,モデルシャープネスの指標であるトレーニング中の注意ヘッド毎の注意エントロピーを追跡する。
我々は,低い注意エントロピーと高いトレーニング不安定性が伴う異なるアーキテクチャやタスクにまたがる共通パターンを特定する。
我々は,高度に集中した注意スコアに対応する,病理的に低い注意エントロピーを$\textit{entropy collapse}$と表現した。
そこで我々は,スペクトル正規化と学習スカラーを付加してすべての線形層を再パラメータ化する,単純かつ効率的な解法である$\sigma$Reparamを提案する。
提案手法は注意層におけるエントロピー崩壊を防止し,より安定したトレーニングを促進する。
さらに,アテンションエントロピーの厳密な下限を証明し,アテンションロジットのスペクトルノルムに比例して指数関数的に減少し,我々のアプローチに新たなモチベーションを与える。
我々は、画像分類、画像自己教師付き学習、機械翻訳、自動音声認識、言語モデリングタスクに関する$\sigma$reparamの実験をトランスフォーマアーキテクチャ間で実施する。
我々は、$\sigma$Reparamがハイパーパラメータの選択に関して安定性と堅牢性を提供することを示した。
(a)ウォームアップ、重量減少、層正規化又は適応最適化を行わない競争性能へのビジョントランスフォーマ
(b)機械翻訳における深層建築
(c)ウォームアップや適応オプティマイザのない競合性能への音声認識
関連論文リスト
- LayerCollapse: Adaptive compression of neural networks [15.248788216228842]
我々は、完全に連結された層の深さを減らすために、構造化プルーニングの一形態であるLayerCollapseを提案する。
我々は,性能に制限があるながら,微調整を伴わずに圧縮を後処理できる新しいレギュラーライザを開発した。
論文 参考訳(メタデータ) (2023-11-29T01:23:41Z) - Layer-wise Shared Attention Network on Dynamical System Perspective [69.45492795788167]
本稿では,複数のネットワーク層にまたがって単一の注目モジュールを共有するDIAユニットという,新規かつ簡易なフレームワークを提案する。
当社のフレームワークでは,パラメータコストはレイヤ数とは無関係であり,既存の自己注意モジュールの精度をさらに向上する。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Stabilizing Off-Policy Deep Reinforcement Learning from Pixels [9.998078491879145]
ピクセル観測から学んだオフ政治強化は、非常に不安定である。
これらの不安定性は,畳み込みエンコーダと低次報酬を用いた時間差学習によって生じることを示す。
本稿では, エンコーダの勾配に適応的な正規化を提供する手法であるA-LIXを提案する。
論文 参考訳(メタデータ) (2022-07-03T08:52:40Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Gophormer: Ego-Graph Transformer for Node Classification [27.491500255498845]
本稿では,egoグラフにフルグラフの代わりにトランスフォーマーを適用した新しいGophormerモデルを提案する。
具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案されており、スケーラビリティの課題が軽減されている。
エゴグラフサンプリングで導入された不確実性に対処するために,一貫性の正則化とマルチサンプル推論戦略を提案する。
論文 参考訳(メタデータ) (2021-10-25T16:43:32Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。