論文の概要: Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
- arxiv url: http://arxiv.org/abs/2510.04212v1
- Date: Sun, 05 Oct 2025 14:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.521795
- Title: Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
- Title(参考訳): 低精度トランスフォーマートレーニングが失敗する理由:Flashアテンションの分析
- Authors: Haiquan Qiu, Quanming Yao,
- Abstract要約: 計算効率の追求により、トランスフォーマーモデルをトレーニングするための低精度フォーマットが採用された。
本稿では,低精度環境でのフラッシュアテンションによるトレーニングが破滅的損失の爆発を引き起こす長期未解決の故障事例について,最初の力学的説明を提供する。
- 参考スコア(独自算出の注目度): 37.00916406627862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of computational efficiency has driven the adoption of low-precision formats for training transformer models. However, this progress is often hindered by notorious training instabilities. This paper provides the first mechanistic explanation for a long-standing and unresolved failure case where training with flash attention in low-precision settings leads to catastrophic loss explosions. Our in-depth analysis reveals that the failure is not a random artifact but caused by two intertwined phenomena: the emergence of similar low-rank representations within the attention mechanism and the compounding effect of biased rounding errors inherent in low-precision arithmetic. We demonstrate how these factors create a vicious cycle of error accumulation that corrupts weight updates, ultimately derailing the training dynamics. To validate our findings, we introduce a minimal modification to the flash attention that mitigates the bias in rounding errors. This simple change stabilizes the training process, confirming our analysis and offering a practical solution to this persistent problem.
- Abstract(参考訳): 計算効率の追求により、トランスフォーマーモデルをトレーニングするための低精度フォーマットが採用された。
しかし、この進歩はしばしば悪名高い訓練の不安定さによって妨げられている。
本稿では,低精度環境でのフラッシュアテンションによるトレーニングが破滅的損失の爆発を引き起こす長期未解決の故障事例について,最初の力学的説明を提供する。
我々の詳細な分析では、故障はランダムなアーティファクトではなく、注意機構内の類似の低ランク表現の出現と、低精度算術に固有の偏り付き丸め誤差の複合効果の2つの現象によって引き起こされることが明らかとなった。
これらの要因がいかにして、重み更新を損なうようなエラー蓄積の悪循環を生じさせ、最終的にトレーニングのダイナミクスを損なうかを実証する。
本研究は, 丸め誤差のバイアスを軽減するため, フラッシュアテンションに最小限の修正を加えることを目的としている。
この単純な変更はトレーニングプロセスを安定化させ、分析を確認し、この永続的な問題に対する実用的な解決策を提供します。
関連論文リスト
- Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Abrupt Learning in Transformers: A Case Study on Matrix Completion [15.210510215283882]
マスク付き言語モデリング(MLM)タスクとして低ランク行列補完問題を定式化する。
BERTモデルをトレーニングして,この課題を低誤差で解決できることが示される。
また、個々のモデルコンポーネントのトレーニングダイナミクスを分析し、突然の損失の減少を理解する。
論文 参考訳(メタデータ) (2024-10-29T17:08:06Z) - Is Flash Attention Stable? [12.827526286642282]
最先端のジェネレーティブAIモデルをトレーニングする多くの組織は、トレーニング中に不安定な独立したケースを報告している。
我々は,数値偏差の影響を理解するための原理的アプローチを開発し,文脈に観察を組み込むプロキシを構築した。
フォワードパスで測定すると,Flash AttentionはBF16のBaseline Attentionと比べて,約1桁の数値偏差があることがわかった。
論文 参考訳(メタデータ) (2024-05-05T03:25:25Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Calibrated Adversarial Training [8.608288231153304]
本稿では, 対人訓練における意味摂動の悪影響を低減させる手法であるCalibrated Adversarial Trainingを提案する。
この方法は, 新たな校正ロバスト誤差に基づいて, 摂動に対する画素レベルの適応を生成する。
論文 参考訳(メタデータ) (2021-10-01T19:17:28Z) - Overfitting or Underfitting? Understand Robustness Drop in Adversarial
Training [34.83228408320053]
本稿では、摂動生成をパラメータ化し、それらを徐々に強化する適応的対向訓練フレームワークAPARTを提案する。
APARTはPGD-10と同等かそれ以上の堅牢性を提供し、計算コストの約1/4しか提供していない。
論文 参考訳(メタデータ) (2020-10-15T21:43:07Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。