論文の概要: Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.19697v1
- Date: Tue, 24 Jun 2025 15:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.691524
- Title: Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models
- Title(参考訳): 大規模言語モデルのロバスト4ビット量子化のためのアウトリーセーフ事前学習
- Authors: Jungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang,
- Abstract要約: 大規模言語モデルにおける極端なアクティベーションアウトレイアは量子化性能を著しく低下させる。
生成を積極的に防止する実用的なガイドラインであるOutlier-Safe Pre-Training (OSP)を紹介した。
我々の研究は、アウトリーチはLLMに固有のものではなく、トレーニング戦略の結果であることを示した。
- 参考スコア(独自算出の注目度): 15.218318229687242
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extreme activation outliers in Large Language Models (LLMs) critically degrade quantization performance, hindering efficient on-device deployment. While channel-wise operations and adaptive gradient scaling are recognized causes, practical mitigation remains challenging. We introduce Outlier-Safe Pre-Training (OSP), a practical guideline that proactively prevents outlier formation rather than relying on post-hoc mitigation. OSP combines three key innovations: (1) the Muon optimizer, eliminating privileged bases while maintaining training efficiency; (2) Single-Scale RMSNorm, preventing channel-wise amplification; and (3) a learnable embedding projection, redistributing activation magnitudes originating from embedding matrices. We validate OSP by training a 1.4B-parameter model on 1 trillion tokens, which is the first production-scale LLM trained without such outliers. Under aggressive 4-bit quantization, our OSP model achieves a 35.7 average score across 10 benchmarks (compared to 26.5 for an Adam-trained model), with only a 2% training overhead. Remarkably, OSP models exhibit near-zero excess kurtosis (0.04) compared to extreme values (1818.56) in standard models, fundamentally altering LLM quantization behavior. Our work demonstrates that outliers are not inherent to LLMs but are consequences of training strategies, paving the way for more efficient LLM deployment. The source code and pretrained checkpoints are available at https://github.com/dmis-lab/Outlier-Safe-Pre-Training.
- Abstract(参考訳): 大規模言語モデル(LLM)の極端なアクティベーションアウトレイラは、量子化性能を著しく低下させ、デバイス上での効率的なデプロイメントを妨げる。
チャネルワイズ操作と適応的勾配スケーリングが原因であると認識されているが、現実的な緩和は依然として困難である。
我々は,ポストホック緩和に頼らず,積極的に外乱発生を阻止する実用的なガイドラインである,外乱防止前訓練(OSP)を紹介した。
OSPは,(1)ミュオンオプティマイザ,(2)トレーニング効率を維持しながら特権ベースを排除し,(2)チャネルワイド増幅を防止するシングルスケールRMSNorm,(3)組込み行列から発せられる活性化度を再分配する学習可能な組込みプロジェクション,の3つの重要なイノベーションを組み合わせる。
1兆トークン上で1.4BパラメータモデルをトレーニングすることでOSPを検証する。
積極的な4ビット量子化の下では、OSPモデルは10ベンチマーク(Adamトレーニングモデルでは26.5に比較)の平均スコアが35.7に達し、トレーニングオーバーヘッドはわずか2%でした。
注目すべきは、OSPモデルは標準モデルにおける極端な値(1818.56)と比較して、ほぼゼロの過剰なカルトーシス(0.04)を示し、LLM量子化の振る舞いを根本的に変えることである。
私たちの研究は、アウトリーチはLLM固有のものではなく、トレーニング戦略の結果であり、より効率的なLLMデプロイメントの道を開くことを実証しています。
ソースコードと事前訓練されたチェックポイントはhttps://github.com/dmis-lab/Outlier-Safe-Pre-Training.comで入手できる。
関連論文リスト
- ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning [44.988290766092184]
エントロピー最小化(EM)は、最も確実な出力にさらに確率質量を集中するようにモデルを訓練する。
この単純な目的だけでラベル付きデータなしでは、挑戦的な数学、物理学、コーディングタスクにおいて大きな言語モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-21T05:39:11Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training [27.857935426067076]
スモール言語モデル (SLM) はエッジデバイスにおける幅広い応用のために注目されている。
高い性能を持つSLMを得るには、計算コストがかなりかかるスクラッチからモデルを事前訓練するか、既存の大規模言語モデル(LLM)を圧縮し、事前訓練に比べて性能が低下し低下する。
1) レイヤーワイド適応プルーニング (Adapt-Pruner) は, LLM において極めて有効であり, 既存のプルーニング技術よりも顕著な改善が得られ, 2) さらなるトレーニングを施した適応プルーニングは, スクラッチから事前学習したプルーニングに匹敵するモデルとなる。
論文 参考訳(メタデータ) (2025-02-05T18:57:40Z) - SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training [60.9776082805359]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示しているが、そのトレーニングは、非常にリソース集約的で、トレーニングの不安定性に影響を受けやすいままである。
本稿では,LLMトレーニング中に観測された勾配スパイクを包括的に調査し,複数のアーキテクチャやデータセットにまたがる傾向を明らかにする。
本稿では,モーメントムリセットを用いたスパイク・アウェア・アダムを提案し,モーメントムリセットとスパイク・アウェア・クリッピングによる勾配スパイク対策について述べる。
論文 参考訳(メタデータ) (2025-01-12T15:21:22Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。