論文の概要: Stabilizing Transformer Training by Preventing Attention Entropy
Collapse
- arxiv url: http://arxiv.org/abs/2303.06296v2
- Date: Tue, 25 Jul 2023 17:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 20:59:36.943238
- Title: Stabilizing Transformer Training by Preventing Attention Entropy
Collapse
- Title(参考訳): 注意エントロピー崩壊防止による変圧器訓練の安定化
- Authors: Shuangfei Zhai, Tatiana Likhomanenko, Etai Littwin, Dan Busbridge,
Jason Ramapuram, Yizhe Zhang, Jiatao Gu, Josh Susskind
- Abstract要約: 本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
- 参考スコア(独自算出の注目度): 56.45313891694746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training stability is of great importance to Transformers. In this work, we
investigate the training dynamics of Transformers by examining the evolution of
the attention layers. In particular, we track the attention entropy for each
attention head during the course of training, which is a proxy for model
sharpness. We identify a common pattern across different architectures and
tasks, where low attention entropy is accompanied by high training instability,
which can take the form of oscillating loss or divergence. We denote the
pathologically low attention entropy, corresponding to highly concentrated
attention scores, as $\textit{entropy collapse}$. As a remedy, we propose
$\sigma$Reparam, a simple and efficient solution where we reparametrize all
linear layers with spectral normalization and an additional learned scalar. We
demonstrate that $\sigma$Reparam successfully prevents entropy collapse in the
attention layers, promoting more stable training. Additionally, we prove a
tight lower bound of the attention entropy, which decreases exponentially fast
with the spectral norm of the attention logits, providing additional motivation
for our approach. We conduct experiments with $\sigma$Reparam on image
classification, image self-supervised learning, machine translation, speech
recognition, and language modeling tasks. We show that $\sigma$Reparam provides
stability and robustness with respect to the choice of hyperparameters, going
so far as enabling training (a) a Vision Transformer {to competitive
performance} without warmup, weight decay, layer normalization or adaptive
optimizers; (b) deep architectures in machine translation and (c) speech
recognition to competitive performance without warmup and adaptive optimizers.
Code is available at \url{https://github.com/apple/ml-sigma-reparam}.
- Abstract(参考訳): トレーニングの安定性はトランスフォーマーにとって非常に重要です。
本研究では,注意層の進化を考察し,変圧器のトレーニングダイナミクスについて検討する。
特に,モデルシャープネスの指標であるトレーニング中の注意ヘッド毎の注意エントロピーを追跡する。
我々は,低い注意エントロピーと高いトレーニング不安定性が伴う異なるアーキテクチャやタスクにまたがる共通パターンを特定する。
我々は,高度に集中した注意スコアに対応する,病理的に低い注意エントロピーを$\textit{entropy collapse}$と表現した。
そこで我々は,スペクトル正規化と学習スカラーを付加してすべての線形層を再パラメータ化する,単純かつ効率的な解法である$\sigma$Reparamを提案する。
我々は、$\sigma$reparamが注意層のエントロピー崩壊をうまく防ぎ、より安定したトレーニングを促進することを実証する。
さらに,アテンションエントロピーの厳密な下限を証明し,アテンションロジットのスペクトルノルムに比例して指数関数的に減少し,我々のアプローチに新たなモチベーションを与える。
画像分類,自己教師付き学習,機械翻訳,音声認識,言語モデリングタスクについて,$\sigma$reparamを用いて実験を行った。
我々は、$\sigma$Reparamがハイパーパラメータの選択に関して安定性と堅牢性を提供することを示した。
(a)ウォームアップ、重量減少、層正規化又は適応最適化を行わない視覚変換器[競争性能へ]
(b)機械翻訳における深層建築
(c)ウォームアップや適応オプティマイザのない競合性能への音声認識
コードは \url{https://github.com/apple/ml-sigma-reparam} で入手できる。
関連論文リスト
- Abrupt Learning in Transformers: A Case Study on Matrix Completion [15.210510215283882]
マスク付き言語モデリング(MLM)タスクとして低ランク行列補完問題を定式化する。
BERTモデルをトレーニングして,この課題を低誤差で解決できることが示される。
また、個々のモデルコンポーネントのトレーニングダイナミクスを分析し、突然の損失の減少を理解する。
論文 参考訳(メタデータ) (2024-10-29T17:08:06Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Theory, Analysis, and Best Practices for Sigmoid Self-Attention [16.73166377436999]
我々は,シグモイドの注意を再考し,詳細な理論的および経験的分析を行う。
我々は,シグモイドに着目した変換器が普遍関数近似器であることを証明した。
ハードウェア・アウェアのFLASHSIGMOIDを導入し,Sigmoid attentionをメモリ効率で実装する。
論文 参考訳(メタデータ) (2024-09-06T17:53:26Z) - A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。
自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。
Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文 参考訳(メタデータ) (2024-06-19T19:11:22Z) - LayerCollapse: Adaptive compression of neural networks [13.567747247563108]
トランスフォーマーネットワークは、自然言語処理やコンピュータビジョンにおいて、先行技術より優れている。
モデルは数億のパラメータを含み、重要な計算資源を必要とする。
完全に連結された層の深さを減少させる新しい構造化プルーニング法であるLayerCollapseを提案する。
論文 参考訳(メタデータ) (2023-11-29T01:23:41Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。