Fugu-MT 論文翻訳(概要): Optimizing Large Language Model Training Using FP4 Quantization

論文の概要: Optimizing Large Language Model Training Using FP4 Quantization

arxiv url: http://arxiv.org/abs/2501.17116v1
Date: Tue, 28 Jan 2025 18:04:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:11.220644
Title: Optimizing Large Language Model Training Using FP4 Quantization
Title（参考訳）: FP4量子化を用いた大規模言語モデル学習の最適化
Authors: Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng,
Abstract要約: 量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
参考スコア（独自算出の注目度）: 73.55459961002371
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing computational demands of training large language models (LLMs) necessitate more efficient methods. Quantized training presents a promising solution by enabling low-bit arithmetic operations to reduce these costs. While FP8 precision has demonstrated feasibility, leveraging FP4 remains a challenge due to significant quantization errors and limited representational capacity. This work introduces the first FP4 training framework for LLMs, addressing these challenges with two key innovations: a differentiable quantization estimator for precise weight updates and an outlier clamping and compensation strategy to prevent activation collapse. To ensure stability, the framework integrates a mixed-precision training scheme and vector-wise quantization. Experimental results demonstrate that our FP4 framework achieves accuracy comparable to BF16 and FP8, with minimal degradation, scaling effectively to 13B-parameter LLMs trained on up to 100B tokens. With the emergence of next-generation hardware supporting FP4, our framework sets a foundation for efficient ultra-low precision training.
Abstract（参考訳）: 大規模言語モデル(LLM)を訓練する際の計算要求の増大は、より効率的な方法を必要とする。量子化トレーニングは、これらのコストを削減するために低ビット演算操作を可能にすることで、有望なソリューションを提供する。 FP8の精度は実現可能性を示しているが、FP4を活用することは大きな量子化誤差と限られた表現能力のために依然として課題である。この研究は、LSMのための最初のFP4トレーニングフレームワークを導入し、これらの課題を2つの重要なイノベーションで解決する: 正確なウェイト更新のための微分可能な量子化推定器と、アクティベーション崩壊を防ぐための外れ値クランプと補償戦略である。安定性を確保するため、このフレームワークは混合精度トレーニングスキームとベクトルワイド量子化を統合している。実験結果から,FP4フレームワークはBF16とFP8に匹敵する精度を達成し,劣化を最小限に抑え,最大100Bトークンでトレーニングされた13BパラメータLLMに効果的にスケール可能であることが示された。 FP4をサポートする次世代ハードウェアの登場に伴い、当社のフレームワークは効率的な超低精度トレーニングの基礎を定めている。

関連論文リスト

What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文参考訳（メタデータ） (2026-01-21T11:22:29Z)
MOSS: Efficient and Accurate FP8 LLM Training with Microscaling and Automatic Scaling [29.545879706181974]
現在のフレームワークは、混合粒度量子化、すなわちアクティベーションにグループごとの量子化を適用し、ウェイトにテンソル/ブロックあたりの量子化を適用することで、トレーニング性能を保っている。効率と数値安定性を両立させる新しいFP8トレーニングフレームワークであるMOSSを提案する。
論文参考訳（メタデータ） (2025-11-08T02:51:26Z)
Pretraining Large Language Models with NVFP4 [53.235038214986865]
我々は,NVFP4フォーマットを用いた大規模言語モデル(LLM)の安定かつ高精度な学習手法を提案する。本手法は,前方と後方の両方で一貫した表現のための2次元量子化方式を統合する。以上の結果から,NVFP4をベースとしたプレトレーニング技術を用いてトレーニングしたモデルは,FP8ベースラインに匹敵するトレーニング損失とダウンストリームタスクアキュラシーを達成できることが示唆された。
論文参考訳（メタデータ） (2025-09-29T17:53:17Z)
PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
Towards Fully FP8 GEMM LLM Training at Scale [77.39425361120466]
既存のアプローチは、しばしば最適化されたFP8カーネルに依存するか、より高精度な行列乗算に回帰する。本稿では, トランスブロック内のすべてのGEMMに対して, 前方および後方の両方でFP8計算をサポートする新しいLLMアーキテクチャを提案する。これにより、特に大規模では、標準的なBF16トレーニングのダウンストリームパフォーマンスにマッチしながら、前例のないスループット向上が可能になる。
論文参考訳（メタデータ） (2025-05-26T21:04:14Z)
FP4 All the Way: Fully Quantized Training of LLMs [26.195547788434908]
主に4ビット浮動小数点(FP4)の精度を用いて,大規模言語モデル(LLM)の完全量子化訓練(FQT)を実演する。ブロックサイズ,スケーリングフォーマット,ラウンドメソッドなど,FP4の主要な設計選択について検討する。
論文参考訳（メタデータ） (2025-05-25T12:14:25Z)
Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。 NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文参考訳（メタデータ） (2025-05-20T17:55:50Z)
Towards Efficient Pre-training: Exploring FP4 Precision in Large Language Models [25.700481606604647]
実験により,我々のFP4トレーニング手法は,理論計算コストを小さくして,BF16とFP8に匹敵する精度を達成できた。 FP4をサポートする次世代ハードウェアの登場に伴い,本手法は効率的な超低精度トレーニングの基礎となる。
論文参考訳（メタデータ） (2025-02-17T05:33:11Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文参考訳（メタデータ） (2025-01-05T02:30:41Z)
Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs [4.5440077473497364]
大きな言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。これらのモデルは、その大規模で広範なトレーニングデータによって特徴づけられ、自然言語処理において何が可能であるかの境界を押し進めている。このようなモデルのトレーニングに関連する膨大な計算要求により、トレーニングプロセスの効率を最適化する研究が進められている。
論文参考訳（メタデータ） (2024-11-10T15:19:42Z)
"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。 FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文参考訳（メタデータ） (2024-11-04T18:21:59Z)
COAT: Compressing Optimizer states and Activation for Memory-Efficient FP8 Training [47.07768822212081]
COAT(States and Activations for FP8 Training)は、大規模なモデルをトレーニングする際のメモリフットプリントを大幅に削減するために設計された、新しいFP8トレーニングフレームワークである。 COATは、BF16と比較して、エンドツーエンドのトレーニングメモリフットプリントを1.54倍に効果的に削減する。 COATはまた、BF16と比較して1.43倍のエンドツーエンドのトレーニング速度を達成する。
論文参考訳（メタデータ） (2024-10-25T05:59:30Z)
To FP8 and Back Again: Quantifying the Effects of Reducing Precision on LLM Training Stability [7.115739465137031]
BrainFloat16 (BF16) の精度は、大規模な言語モデルの事前トレーニングのデファクトスタンダードになっている。しかしながら、BF16より安定でないことが判明したFP16の以前の経験は、FP8がLCM訓練の費用対効果があるかどうかという懸念を提起している。自己回帰言語モデルにおける損失ランドスケープのシャープネスを定量化するための新しい評価手法と新しい指標を提案する。
論文参考訳（メタデータ） (2024-05-29T02:42:23Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合したL4Qを提案する。メモリ最適化レイヤ設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、トレーニングコストはLoRAに匹敵する。この量子化法と微調整法の組み合わせにより精度が向上することを示した。
論文参考訳（メタデータ） (2024-02-07T14:35:05Z)
CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。 LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。 CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文参考訳（メタデータ） (2023-12-13T07:56:27Z)
FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文参考訳（メタデータ） (2023-10-27T17:59:51Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。 LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文参考訳（メタデータ） (2023-07-19T06:58:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。