論文の概要: SNIP: An Adaptive Mixed Precision Framework for Subbyte Large Language Model Training
- arxiv url: http://arxiv.org/abs/2602.01410v1
- Date: Sun, 01 Feb 2026 19:34:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.772099
- Title: SNIP: An Adaptive Mixed Precision Framework for Subbyte Large Language Model Training
- Title(参考訳): SNIP: サブバイト大規模言語モデルトレーニングのための適応混合精度フレームワーク
- Authors: Yunjie Pan, Yongyi Yang, Hanmei Yang, Scott Mahlke,
- Abstract要約: 現在の混合精度トレーニングアプローチは、すべてのGEMM操作に均一な精度を適用するか、トレーニング中に一般化に失敗する手法に依存するかのどちらかである。
本稿では,サブバイト精度をサポートするLSMプレトレーニングのための微粒化適応型混合精度学習フレームワークSNIPを紹介する。
1B, 3B, 7B, 70B Llamaのようなモデルに対する実験は、SNIPが既存のベースラインを一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 5.341188930460575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training large language models (LLMs) efficiently while preserving model quality poses significant challenges, particularly with subbyte precision supported by state-of-the-art GPUs. Current mixed-precision training approaches either apply uniform precision to all GEMM operations or rely on heuristic-based methods that fail to generalize during training, leading to suboptimal convergence and instability. To address these challenges, this paper introduces SNIP, a fine-grained adaptive mixed-precision training framework for LLM pretraining that supports subbyte precision. SNIP periodically collects statistics on activations, gradients, and optimizer states to assess the precision loss impact on model quality. We define two key metrics: loss divergence in the forward pass, caused by quantization-induced increases in training loss, and weight divergence in the backward pass, which measures error propagation through gradients affecting model updates. These metrics guide an Integer Linear Programming (ILP) problem that systematically optimizes layerwise precision to minimize overall quality loss while meeting efficiency targets. Experiments on 1B, 3B, 7B and 70B Llama-like models demonstrate that SNIP consistently outperforms existing baselines, reducing FLOPs by up to 80% while preserving model quality across different model sizes and training phases with minimal computational overhead.
- Abstract(参考訳): 大きな言語モデル(LLM)を効率的にトレーニングし、モデル品質を保ちながら、特に最先端のGPUでサポートされているサブバイト精度では、大きな課題が生じる。
現在の混合精度トレーニングアプローチは、すべてのGEMM操作に均一な精度を適用するか、トレーニング中に一般化に失敗するヒューリスティックベースの手法に依存し、最適下限収束と不安定をもたらす。
これらの課題に対処するために,サブバイト精度をサポートするLLMプレトレーニングのための微粒化適応型混合精度トレーニングフレームワークであるSNIPを紹介する。
SNIPは定期的にアクティベーション、勾配、オプティマイザ状態の統計を収集し、モデル品質に対する精度損失の影響を評価する。
トレーニング損失の量子化による増加に起因する前進パスの損失分散と,モデル更新に影響を与える勾配による誤差伝搬を測定する後進パスの重量分散という2つの重要な指標を定義した。
これらのメトリクスは、効率の目標を満たしながら全体的な品質損失を最小限に抑えるため、階層的精度を体系的に最適化する整数線形プログラミング(ILP)問題を導く。
1B, 3B, 7B, 70B Llamaのようなモデルに対する実験では、SNIPが既存のベースラインを一貫して上回り、FLOPを最大80%削減し、異なるモデルサイズでモデル品質を維持し、最小の計算オーバーヘッドでトレーニングフェーズを維持できることを示した。
関連論文リスト
- ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - Mixed Precision Training of Neural ODEs [1.3382837742547355]
本稿では,ニューラルネットワークのための混合精度学習フレームワークを提案する。
明示的なODEソルバとカスタムバックプロパゲーションスキームを組み合わせる。
約50%のメモリ削減と最大2倍のスピードアップを実現し、精度は単精度トレーニングに匹敵する。
論文 参考訳(メタデータ) (2025-10-27T16:32:56Z) - CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。
スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。
以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文 参考訳(メタデータ) (2025-09-30T09:28:47Z) - Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。
動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。
当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文 参考訳(メタデータ) (2025-02-10T17:57:15Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [48.55966021231297]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - FORML: Learning to Reweight Data for Fairness [2.105564340986074]
メタラーニング(FORML)によるフェアネス最適化リヘアリングについて紹介する。
FORMLは、トレーニングサンプル重量とニューラルネットワークのパラメータを共同最適化することで、公正性の制約と精度のバランスを取る。
また,FORMLは,既存の最先端再重み付け手法に比べて,画像分類タスクで約1%,顔予測タスクで約5%向上することを示した。
論文 参考訳(メタデータ) (2022-02-03T17:36:07Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。