論文の概要: TWEO: Transformers Without Extreme Outliers Enables FP8 Training And Quantization For Dummies
- arxiv url: http://arxiv.org/abs/2511.23225v1
- Date: Fri, 28 Nov 2025 14:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.931313
- Title: TWEO: Transformers Without Extreme Outliers Enables FP8 Training And Quantization For Dummies
- Title(参考訳): TWEO:FP8トレーニングとダミーの量子化が可能に
- Authors: Guang Liang, Jie Shao, Ningyuan Tang, Xinyao Liu, Jianxin Wu,
- Abstract要約: 本稿では,データ駆動型降圧器の従来の知恵に挑戦する。
我々は,新しい非侵襲的損失関数であるTWEO(Transformers Without Extreme Outliers)を提案する。
TWEOは、非常に単純な損失項により、効果的に極端なアウトリーチを防止し、アウトリーチを10000以上から20未満に減少させる。
- 参考スコア(独自算出の注目度): 15.045348948724884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Native FP8 support in modern hardware is essential for training large Transformers, but is severely hindered by extreme activation outliers. Existing solutions either rely on complex mixed-precision engineering or invasive architectural modifications. This paper fundamentally challenges the conventional wisdom that outliers are data-driven. We demonstrate that extreme outliers are a data-independent, mechanically-produced artifact of training, originating from specific structural properties of the weight matrices (i.e., colinearity). Based on this insight, we propose TWEO (Transformers Without Extreme Outliers), a novel, non-invasive loss function. TWEO effectively prevents extreme outliers via a very simple loss term, which reduces outliers from 10000+ to less than 20. TWEO then enables full-model FP8 pre-training with neither engineering tricks nor architectural changes for both LLM and ViT. When standard FP8 training catastrophically collapses, TWEO achieves performance comparable to the BF16 baseline while delivering a 36% increase in training throughput. Also, TWEO enables a new quantization paradigm. Hardware-friendly W8A8 per-tensor static quantization of LLMs, previously considered completely unusable due to outliers, achieves SOTA performance for the first time on TWEO-trained models.
- Abstract(参考訳): 現代のハードウェアにおけるネイティブなFP8サポートは、大きなトランスフォーマーのトレーニングには不可欠だが、極端なアクティベーションの異常によって著しく妨げられている。
既存のソリューションは複雑な混合精度工学か、侵入的なアーキテクチャ修正に依存している。
本稿は、データ駆動型であるという従来の知恵に基本的に挑戦する。
極端外周波は、重み行列の特定の構造的特性(コリニアリティ)から生じる、データに依存しない、機械的に生産された訓練の人工物であることを示す。
この知見に基づいて,新しい非侵襲的損失関数であるTWEO(Transformers Without Extreme Outliers)を提案する。
TWEOは、非常に単純な損失項により、効果的に極端なアウトリーチを防止し、アウトリーチを10000以上から20未満に減少させる。
TWEO はフルモデル FP8 の事前トレーニングを可能にし、LLM と ViT の両方の技術的トリックやアーキテクチャ上の変更は行わない。
標準的なFP8トレーニングが破滅的に崩壊すると、TWEOはBF16ベースラインに匹敵するパフォーマンスを達成し、トレーニングスループットは36%向上した。
また、TWEOは新たな量子化パラダイムを実現する。
ハードウェアフレンドリーなLLMのW8A8静的量子化は、これまでは異常値のため完全には使用できないと考えられていたが、TWEOで訓練されたモデルでSOTAのパフォーマンスを初めて達成した。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Towards Fully FP8 GEMM LLM Training at Scale [77.97607456493257]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。
本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。
これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文 参考訳(メタデータ) (2025-05-26T21:04:14Z) - Accurate INT8 Training Through Dynamic Block-Level Fallback [21.808835887740543]
トランスフォーマーモデルは、さまざまなAIアプリケーションで顕著な成功を収めているが、かなりのトレーニングコストに直面している。
オフレイアを含むアクティベーションブロックに対して,動的に8ビットから16ビットにフォールバックする混合精度GEMMを実装したフォールバック量子化を提案する。
実験により、我々のアプローチは微調整と事前学習の両方で堅牢に機能していることが示された。
論文 参考訳(メタデータ) (2025-03-11T04:45:48Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。