論文の概要: Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
- arxiv url: http://arxiv.org/abs/2510.04212v2
- Date: Fri, 10 Oct 2025 11:14:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:46.594027
- Title: Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
- Title(参考訳): 低精度トランスフォーマートレーニングが失敗する理由:Flashアテンションの分析
- Authors: Haiquan Qiu, Quanming Yao,
- Abstract要約: 本稿では,低精度環境でのフラッシュアテンションによるトレーニングが破滅的損失の爆発を引き起こす長期未解決の故障事例について,最初の力学的説明を提供する。
我々の詳細な分析では、故障はランダムなアーティファクトではなく、注意機構内の類似の低ランク表現の出現と、低精度算術に固有の偏り付き丸め誤差の複合効果の2つの現象によって引き起こされることが明らかとなった。
- 参考スコア(独自算出の注目度): 37.00916406627862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pursuit of computational efficiency has driven the adoption of low-precision formats for training transformer models. However, this progress is often hindered by notorious training instabilities. This paper provides the first mechanistic explanation for a long-standing and unresolved failure case where training with flash attention in low-precision settings leads to catastrophic loss explosion. Our in-depth analysis reveals that the failure is not a random artifact but caused by two intertwined phenomena: the emergence of similar low-rank representations within the attention mechanism and the compounding effect of biased rounding errors inherent in low-precision arithmetic. We demonstrate how these factors create a vicious cycle of error accumulation that corrupts weight updates, ultimately derailing the training dynamics. To validate our findings, we introduce a minimal modification to the flash attention that mitigates the bias in rounding errors. This simple change stabilizes the training process, confirming our analysis and offering a practical solution to this persistent problem. Code is available at https://github.com/ucker/why-low-precision-training-fails.
- Abstract(参考訳): 計算効率の追求により、トランスフォーマーモデルをトレーニングするための低精度フォーマットが採用された。
しかし、この進歩はしばしば悪名高い訓練の不安定さによって妨げられている。
本稿では,低精度環境でのフラッシュアテンションによるトレーニングが破滅的損失の爆発を引き起こす長期未解決の故障事例について,最初の力学的説明を提供する。
我々の詳細な分析では、故障はランダムなアーティファクトではなく、注意機構内の類似の低ランク表現の出現と、低精度算術に固有の偏り付き丸め誤差の複合効果の2つの現象によって引き起こされることが明らかとなった。
これらの要因がいかにして、重み更新を損なうようなエラー蓄積の悪循環を生じさせ、最終的にトレーニングのダイナミクスを損なうかを実証する。
本研究は, 丸め誤差のバイアスを軽減するため, フラッシュアテンションに最小限の修正を加えることを目的としている。
この単純な変更はトレーニングプロセスを安定化させ、分析を確認し、この永続的な問題に対する実用的な解決策を提供します。
コードはhttps://github.com/ucker/why-low-precision-training-failsで入手できる。
関連論文リスト
- Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。
我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-01-31T15:03:54Z) - Abrupt Learning in Transformers: A Case Study on Matrix Completion [15.210510215283882]
マスク付き言語モデリング(MLM)タスクとして低ランク行列補完問題を定式化する。
BERTモデルをトレーニングして,この課題を低誤差で解決できることが示される。
また、個々のモデルコンポーネントのトレーニングダイナミクスを分析し、突然の損失の減少を理解する。
論文 参考訳(メタデータ) (2024-10-29T17:08:06Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Is Flash Attention Stable? [12.827526286642282]
最先端のジェネレーティブAIモデルをトレーニングする多くの組織は、トレーニング中に不安定な独立したケースを報告している。
我々は,数値偏差の影響を理解するための原理的アプローチを開発し,文脈に観察を組み込むプロキシを構築した。
フォワードパスで測定すると,Flash AttentionはBF16のBaseline Attentionと比べて,約1桁の数値偏差があることがわかった。
論文 参考訳(メタデータ) (2024-05-05T03:25:25Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Input Perturbation Reduces Exposure Bias in Diffusion Models [41.483581603727444]
本稿では,長いサンプリングチェーンが,自己回帰テキスト生成における露出バイアス問題と同様の誤差蓄積現象を引き起こすことを示す。
本稿では,推定時間予測誤差をシミュレートするために,基底真理サンプルを摂動させることにより,非常に単純で効果的なトレーニング正則化を提案する。
実験により,リコールと精度に影響を与えることなく,提案した入力摂動がサンプル品質を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-01-27T13:34:54Z) - Calibrated Adversarial Training [8.608288231153304]
本稿では, 対人訓練における意味摂動の悪影響を低減させる手法であるCalibrated Adversarial Trainingを提案する。
この方法は, 新たな校正ロバスト誤差に基づいて, 摂動に対する画素レベルの適応を生成する。
論文 参考訳(メタデータ) (2021-10-01T19:17:28Z) - Overfitting or Underfitting? Understand Robustness Drop in Adversarial
Training [34.83228408320053]
本稿では、摂動生成をパラメータ化し、それらを徐々に強化する適応的対向訓練フレームワークAPARTを提案する。
APARTはPGD-10と同等かそれ以上の堅牢性を提供し、計算コストの約1/4しか提供していない。
論文 参考訳(メタデータ) (2020-10-15T21:43:07Z) - Step-Ahead Error Feedback for Distributed Training with Compressed
Gradient [99.42912552638168]
集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。
本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
論文 参考訳(メタデータ) (2020-08-13T11:21:07Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z) - Self-Adaptive Training: beyond Empirical Risk Minimization [15.59721834388181]
余分な計算コストを伴わずにモデル予測により問題ラベルを動的に補正する新しいトレーニングアルゴリズムを提案する。
自己適応型トレーニングは、様々なレベルのノイズに対する一般化を著しく改善し、自然と敵対両方のトレーニングにおいて過度に適合する問題を緩和する。
CIFARとImageNetデータセットの実験は、我々のアプローチの有効性を2つのアプリケーションで検証する。
論文 参考訳(メタデータ) (2020-02-24T15:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。