論文の概要: To Compress or Not? Pushing the Frontier of Lossless GenAI Model Weights Compression with Exponent Concentration
- arxiv url: http://arxiv.org/abs/2510.02676v1
- Date: Fri, 03 Oct 2025 02:22:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.241163
- Title: To Compress or Not? Pushing the Frontier of Lossless GenAI Model Weights Compression with Exponent Concentration
- Title(参考訳): 圧縮かしないか?-非損失GenAIモデルのフロンティアを推し進める : 指数集中圧縮
- Authors: Zeyu Yang, Tianyi Zhang, Jianwen Xie, Chuan Li, Zhaozhuo Xu, Anshumali Shrivastava,
- Abstract要約: 低精度浮動小数点フォーマットは、遅延化オーバーヘッドを伴わずに安定性、メモリ節約、ハードウェア効率を提供する。
本稿では,エントロピー対応エンコーディングとGPU最適化デコーディングを備えた圧縮フレームワークであるExponent-Concentrated FP8(ECF8)を提案する。
LLMとDiTの最大671Bパラメータの実験では、最大26.9%のメモリ節約と177.1%のスループット加速が示されている。
- 参考スコア(独自算出の注目度): 46.63567524455431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling of Generative AI (GenAI) models into the hundreds of billions of parameters makes low-precision computation indispensable for efficient deployment. We argue that the fundamental solution lies in developing low-precision floating-point formats, which inherently provide numerical stability, memory savings, and hardware efficiency without dequantization overhead. In this paper, we present a theoretical and empirical study of an exponent concentration phenomenon in GenAI weights: exponents consistently exhibit low entropy across architectures and modalities. We show that this arises naturally from $\alpha$-stable distributions induced by stochastic gradient descent, and we prove tight bounds on the entropy of exponents. Our analysis establishes a theoretical compression limit near FP4.67, which motivates the design of a practical FP8 format. Building on these insights, we propose Exponent-Concentrated FP8 (ECF8), a lossless compression framework with entropy-aware encoding and GPU-optimized decoding. Experiments on LLMs and DiTs up to 671B parameters demonstrate up to 26.9% memory savings and 177.1% throughput acceleration, with perfectly lossless computations, i.e., no deviation in model outputs. Our results establish exponent concentration as a statistical law of trained models and open a principled path for lossless low-precision floating-point design in the FP8 era.
- Abstract(参考訳): 生成AI(GenAI)モデルを数十億のパラメータにスケールすることで、効率的なデプロイメントには低精度の計算が不可欠である。
基本的な解決策は,数値安定性,メモリ節約,ハードウェア効率を,並列化オーバーヘッドを伴わずに本質的に提供する,低精度浮動小数点フォーマットの開発にある,と我々は主張する。
本稿では,GenAI重みにおける指数集中現象の理論的,実証的研究について述べる。
確率勾配降下によって誘導される$\alpha$-stable分布から自然に発生することを示し、指数のエントロピーに厳密な有界性を示す。
解析によりFP4.67付近で理論的圧縮限界を確立し,FP8フォーマットの設計を動機付けている。
これらの知見に基づいて,エントロピー対応エンコーディングとGPU最適化デコーディングを備えた非損失圧縮フレームワークであるExponent-Concentrated FP8(ECF8)を提案する。
LLMとDiTの最大671Bパラメータの実験では、最大26.9%のメモリ節約と177.1%のスループット加速、完全に損失のない計算、すなわちモデル出力の偏差がないことが示されている。
その結果,FP8 時代において,学習モデルの統計法則として指数集中が確立され,損失のない低精度浮動小数点設計のための基本経路が開かれた。
関連論文リスト
- Lossless Compression of Neural Network Components: Weights, Checkpoints, and K/V Caches in Low-Precision Formats [0.0]
本研究では、ZipNNのアプローチをより高精度な浮動小数点点フォーマット、特にFP8とFP4に拡張する。
圧縮比はBF16が62%,FP8が83%であった。
また,キー値(K/V)キャッシュテンソルの圧縮性についても検討した。
論文 参考訳(メタデータ) (2025-08-20T12:46:50Z) - First-Order Error Matters: Accurate Compensation for Quantized Large Language Models [32.69069234109942]
後学習量子化(PTQ)は、大規模言語モデル(LLM)の圧縮に効率的なアプローチを提供する
既存の補償に基づくウェイトキャリブレーション法は、しばしば量子化誤差をモデル化するために2階テイラー展開に依存する。
本稿では,量子化誤差補償を改善するために,一階勾配項を明示的に組み込んだ新しいPTQ手法であるFOEMを提案する。
論文 参考訳(メタデータ) (2025-07-15T06:18:46Z) - Flow Matching Meets PDEs: A Unified Framework for Physics-Constrained Generation [21.321570407292263]
本稿では,PDE残差と代数的関係の両方の物理制約をフローマッチングの対象に組み込む生成フレームワークである物理ベースフローマッチングを提案する。
提案手法では,FMよりも高精度な物理残差を最大8倍に抑えながら,分布精度では既存アルゴリズムよりも明らかに優れていることを示す。
論文 参考訳(メタデータ) (2025-06-10T09:13:37Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。