Fugu-MT 論文翻訳(概要): Stabilizing Transformer Training by Preventing Attention Entropy Collapse

論文の概要: Stabilizing Transformer Training by Preventing Attention Entropy Collapse

arxiv url: http://arxiv.org/abs/2303.06296v1
Date: Sat, 11 Mar 2023 03:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 19:57:06.419233
Title: Stabilizing Transformer Training by Preventing Attention Entropy Collapse
Title（参考訳）: 注意エントロピー崩壊防止による変圧器訓練の安定化
Authors: Shuangfei Zhai, Tatiana Likhomanenko, Etai Littwin, Dan Busbridge, Jason Ramapuram, Yizhe Zhang, Jiatao Gu, Josh Susskind
Abstract要約: トレーニング中の各注意ヘッドの注意エントロピーは,モデルシャープネスの指標である。異なるアーキテクチャやタスクに共通するパターンを特定し、注意の低いエントロピーには高いトレーニング不安定が伴う。スペクトル正規化と学習スカラーを加味してすべての線形層を再パラメータ化する,単純かつ効率的な解を提案する。
参考スコア（独自算出の注目度）: 56.45313891694746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training stability is of great importance to Transformers. In this work, we investigate the training dynamics of Transformers by examining the evolution of the attention layers. In particular, we track the attention entropy for each attention head during the course of training, which is a proxy for model sharpness. We identify a common pattern across different architectures and tasks, where low attention entropy is accompanied by high training instability, which can take the form of oscillating loss or divergence. We denote the pathologically low attention entropy, corresponding to highly concentrated attention scores, as $\textit{entropy collapse}$. As a remedy, we propose $\sigma$Reparam, a simple and efficient solution where we reparametrize all linear layers with spectral normalization and an additional learned scalar. We demonstrate that the proposed reparameterization successfully prevents entropy collapse in the attention layers, promoting more stable training. Additionally, we prove a tight lower bound of the attention entropy, which decreases exponentially fast with the spectral norm of the attention logits, providing additional motivation for our approach. We conduct experiments with $\sigma$Reparam on image classification, image self-supervised learning, machine translation, automatic speech recognition, and language modeling tasks, across Transformer architectures. We show that $\sigma$Reparam provides stability and robustness with respect to the choice of hyperparameters, going so far as enabling training (a) a Vision Transformer to competitive performance without warmup, weight decay, layer normalization or adaptive optimizers; (b) deep architectures in machine translation and (c) speech recognition to competitive performance without warmup and adaptive optimizers.
Abstract（参考訳）: トレーニングの安定性はトランスフォーマーにとって非常に重要です。本研究では,注意層の進化を考察し,変圧器のトレーニングダイナミクスについて検討する。特に,モデルシャープネスの指標であるトレーニング中の注意ヘッド毎の注意エントロピーを追跡する。我々は,低い注意エントロピーと高いトレーニング不安定性が伴う異なるアーキテクチャやタスクにまたがる共通パターンを特定する。我々は,高度に集中した注意スコアに対応する,病理的に低い注意エントロピーを$\textit{entropy collapse}$と表現した。そこで我々は,スペクトル正規化と学習スカラーを付加してすべての線形層を再パラメータ化する,単純かつ効率的な解法である$\sigma$Reparamを提案する。提案手法は注意層におけるエントロピー崩壊を防止し,より安定したトレーニングを促進する。さらに,アテンションエントロピーの厳密な下限を証明し,アテンションロジットのスペクトルノルムに比例して指数関数的に減少し,我々のアプローチに新たなモチベーションを与える。我々は、画像分類、画像自己教師付き学習、機械翻訳、自動音声認識、言語モデリングタスクに関する$\sigma$reparamの実験をトランスフォーマアーキテクチャ間で実施する。我々は、$\sigma$Reparamがハイパーパラメータの選択に関して安定性と堅牢性を提供することを示した。 (a)ウォームアップ、重量減少、層正規化又は適応最適化を行わない競争性能へのビジョントランスフォーマ (b)機械翻訳における深層建築 (c)ウォームアップや適応オプティマイザのない競合性能への音声認識

関連論文リスト

Krause Synchronization Transformers [63.8469912831803]
トランスフォーマーにおける自己注意は、グローバルに正規化されたソフトマックスの重みに依存しており、すべてのトークンがすべての層で影響を競う。クラーズ・アテンション(Krause Attention)は、有界信頼コンセンサス・ダイナミクスにインスパイアされた注意機構である。
論文参考訳（メタデータ） (2026-02-12T03:47:53Z)
Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文参考訳（メタデータ） (2026-02-06T16:39:10Z)
Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。 SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文参考訳（メタデータ） (2025-09-27T00:46:29Z)
Integral Transformer: Denoising Attention, Not Too Much Not Too Little [22.670315809624466]
ソフトマックスの自己注意は、特別なトークンや句読点のような意味的に非形式的なトークンに不均等な重みを割り当てる。本稿では,ロジット分布からサンプリングした信号を統合することで注意を喚起する新しい自己認識機構であるIntegral Transformerを提案する。提案手法は, モデル性能に重要な特別なトークンの寄与を保ちながら, ノイズを緩和する。
論文参考訳（メタデータ） (2025-08-25T18:19:21Z)
Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [7.2136602534376015]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。トランスでは、間違った初期化は、ランク崩壊とエントロピー崩壊という、2つの自己注意層の障害モードの1つにつながる可能性がある。本稿では, 自己アテンション層を有するバニラ変圧器ブロックによる信号伝搬の解析理論を提案する。
論文参考訳（メタデータ） (2025-05-30T08:18:23Z)
Taming Transformer Without Using Learning Rate Warmup [11.9495483265072]
Transformerを大規模にスケールすることは、学習率のウォープのような技術的なトリックを使わずに、非常に難しい作業です。本稿では,新たな最適化戦略,すなわち重み更新をスムーズに行う。我々は、ViT、Swin-Transformer、GPTを用いて広範な実験を行い、学習率ウォームアップを使わずに、これらのトランスフォーマーを効果的に安定的に訓練できることを示す。
論文参考訳（メタデータ） (2025-05-28T02:55:28Z)
Exploring Magnitude Preservation and Rotation Modulation in Diffusion Transformers [5.187307904567701]
正規化レイヤを使わずにトレーニングを安定化する等級保存設計を提案する。活性化マグニチュードを維持するという目標により、回転変調も導入する。また,FIDスコアを$sim$12.8%削減した。
論文参考訳（メタデータ） (2025-05-25T12:25:50Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
ESPFormer: Doubly-Stochastic Attention with Expected Sliced Transport Plans [13.695885742446027]
自己注意は、トレーニング中にいくつかのトークンを過度に集中させ、その結果、準最適情報フローをもたらす可能性がある。我々は,スライスされた最適輸送に基づく,新しい並列化可能な二重確率的アテンション機構を提案する。本手法はシンクホーンの正規化を繰り返すことなく二重性を強制し,効率を著しく向上させる。
論文参考訳（メタデータ） (2025-02-11T21:20:48Z)
Abrupt Learning in Transformers: A Case Study on Matrix Completion [15.210510215283882]
マスク付き言語モデリング(MLM)タスクとして低ランク行列補完問題を定式化する。 BERTモデルをトレーニングして,この課題を低誤差で解決できることが示される。また、個々のモデルコンポーネントのトレーニングダイナミクスを分析し、突然の損失の減少を理解する。
論文参考訳（メタデータ） (2024-10-29T17:08:06Z)
Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文参考訳（メタデータ） (2024-10-12T17:50:58Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
Theory, Analysis, and Best Practices for Sigmoid Self-Attention [16.73166377436999]
我々は,シグモイドの注意を再考し,詳細な理論的および経験的分析を行う。我々は,シグモイドに着目した変換器が普遍関数近似器であることを証明した。ハードウェア・アウェアのFLASHSIGMOIDを導入し,Sigmoid attentionをメモリ効率で実装する。
論文参考訳（メタデータ） (2024-09-06T17:53:26Z)
A Primal-Dual Framework for Transformers and Neural Networks [52.814467832108875]
自己注意は、シーケンスモデリングタスクにおけるトランスフォーマーの顕著な成功の鍵である。自己アテンションは、支持ベクトル回帰問題から導かれる支持ベクトル展開に対応することを示す。 Batch Normalized Attention (Attention-BN) と Scaled Head (Attention-SH) の2つの新しい注意点を提案する。
論文参考訳（メタデータ） (2024-06-19T19:11:22Z)
LayerCollapse: Adaptive compression of neural networks [13.567747247563108]
トランスフォーマーネットワークは、自然言語処理やコンピュータビジョンにおいて、先行技術より優れている。モデルは数億のパラメータを含み、重要な計算資源を必要とする。完全に連結された層の深さを減少させる新しい構造化プルーニング法であるLayerCollapseを提案する。
論文参考訳（メタデータ） (2023-11-29T01:23:41Z)
DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。 3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-07-13T11:12:03Z)
Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文参考訳（メタデータ） (2020-04-17T13:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。