論文の概要: Is Flash Attention Stable?
- arxiv url: http://arxiv.org/abs/2405.02803v1
- Date: Sun, 5 May 2024 03:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:20:16.689926
- Title: Is Flash Attention Stable?
- Title(参考訳): Flashアテンションは安定しているか?
- Authors: Alicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu,
- Abstract要約: 最先端のジェネレーティブAIモデルをトレーニングする多くの組織は、トレーニング中に不安定な独立したケースを報告している。
我々は,数値偏差の影響を理解するための原理的アプローチを開発し,文脈に観察を組み込むプロキシを構築した。
フォワードパスで測定すると,Flash AttentionはBF16のBaseline Attentionと比べて,約1桁の数値偏差があることがわかった。
- 参考スコア(独自算出の注目度): 12.827526286642282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large-scale machine learning models poses distinct system challenges, given both the size and complexity of today's workloads. Recently, many organizations training state-of-the-art Generative AI models have reported cases of instability during training, often taking the form of loss spikes. Numeric deviation has emerged as a potential cause of this training instability, although quantifying this is especially challenging given the costly nature of training runs. In this work, we develop a principled approach to understanding the effects of numeric deviation, and construct proxies to put observations into context when downstream effects are difficult to quantify. As a case study, we apply this framework to analyze the widely-adopted Flash Attention optimization. We find that Flash Attention sees roughly an order of magnitude more numeric deviation as compared to Baseline Attention at BF16 when measured during an isolated forward pass. We then use a data-driven analysis based on the Wasserstein Distance to provide upper bounds on how this numeric deviation impacts model weights during training, finding that the numerical deviation present in Flash Attention is 2-5 times less significant than low-precision training.
- Abstract(参考訳): 大規模な機械学習モデルのトレーニングは、今日のワークロードのサイズと複雑さの両方を考慮すると、異なるシステムの課題を生じさせる。
近年、最先端のジェネレーティブAIモデルをトレーニングする多くの組織は、トレーニング中に不安定なケースを報告し、しばしば損失スパイクの形式を取っている。
このトレーニングの不安定性の潜在的な原因として、数値的な偏差が現れたが、トレーニングのコストのかかる性質を考えると、これは特に困難である。
本研究では,数値偏差の影響を理解するための原理的アプローチを開発し,下流効果の定量化が難しい状況下で観測を行うためのプロキシを構築した。
ケーススタディでは、広く採用されているFlash Attentionの最適化を分析するために、このフレームワークを適用します。
Flash Attentionは、孤立したフォワードパスで測定された場合、BF16のBaseline Attentionと比べて、およそ1桁の数値偏差があることがわかった。
次に、Wasserstein Distanceに基づくデータ駆動分析を用いて、この数値偏差がトレーニング中にモデルウェイトに与える影響について上限を与える。
関連論文リスト
- A Cost-Aware Approach to Adversarial Robustness in Neural Networks [1.622320874892682]
本稿では,ハードウェア選択,バッチサイズ,エポック数,テストセット精度の影響を測定するために,高速化された故障時間モデルを提案する。
我々は、複数のGPUタイプを評価し、モデルの堅牢性を最大化し、モデル実行時間を同時に最小化するためにTree Parzen Estimatorを使用します。
論文 参考訳(メタデータ) (2024-09-11T20:43:59Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Exploring Weight Balancing on Long-Tailed Recognition Problem [32.01426831450348]
クラスごとのサンプルサイズが重く歪んだ長いデータにおける認識問題の重要性が高まっている。
古典的正規化技術と2段階トレーニングを組み合わせた重みバランスが提案されている。
トレーニング段階ごとの神経崩壊とコーン効果に着目して重量バランスを解析した。
論文 参考訳(メタデータ) (2023-05-26T01:45:19Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - On the Robustness of Pretraining and Self-Supervision for a Deep
Learning-based Analysis of Diabetic Retinopathy [70.71457102672545]
糖尿病網膜症における訓練方法の違いによる影響を比較検討した。
本稿では,定量的性能,学習した特徴表現の統計,解釈可能性,画像歪みに対する頑健性など,さまざまな側面について検討する。
以上の結果から,ImageNet事前学習モデルでは,画像歪みに対する性能,一般化,堅牢性が著しく向上していることが示唆された。
論文 参考訳(メタデータ) (2021-06-25T08:32:45Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。