論文の概要: dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats
- arxiv url: http://arxiv.org/abs/2606.04115v1
- Date: Tue, 02 Jun 2026 18:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.32027
- Title: dMX: Differentiable Mixed-Precision Assignment for Low-Precision Floating-Point Formats
- Title(参考訳): dMX:低精度浮動小数点集合に対する微分混合精度アサインメント
- Authors: Giuseppe Franco, Ian Colbert, Pablo Monteagudo-Lago, Felix Marty, Nicholas Fraser,
- Abstract要約: dMXは、学習可能な浮動小数点ビット幅割り当てのための混合精度量子化フレームワークである。
我々は,Open Compute Project 規格で定義されたデータ型のマイクロスケーリング浮動小数点(MXFP)ファミリへの適用について検討した。
- 参考スコア(独自算出の注目度): 1.3357020021155022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantizing large language models (LLMs) to low-precision floating-point representations is central to efficient deployment, yet applying a single bit-width uniformly across all layers is sub-optimal in terms of both performance and accuracy. This work introduces dMX, a differentiable mixed-precision quantization framework for learnable floating-point bit-width assignment. We study its application for the microscaling floating-point (MXFP) family of data types defined by the Open Compute Project (OCP) standard. The per-layer bit-width assignment is formulated as a continuous optimization problem in which each layer's floating-point format format is parameterized by a scalar parameter, folding the multi-variate design space into a single learnable offset. During training this offset takes continuous values, avoiding sudden oscillations between discrete quantization formats. A temperature-based annealing schedule progressively discretizes the learned offsets, ensuring that the final configuration maps to hardware-compatible MXFP formats without abrupt transitions between training and inference behavior. A target-aware regularization term steers the average bit-width toward a user-specified budget, serving as a coarse-grained proxy for inference cost and balancing model quality against deployment efficiency. We performed experiments on different families of LLM, such as Llama, Qwen3, and SmolLM2, evaluating perplexity on WikiText-2 and accuracy on four zero-shot reasoning benchmarks. Across these settings, dMX consistently yields Pareto-dominating models and improves over Kullback-Leibler (KL) divergence-based layer-selection heuristics, efficiently navigating trade-offs between model quality and average bit-width.
- Abstract(参考訳): 大規模言語モデル(LLM)を低精度浮動小数点表現に量子化することは、効率的なデプロイメントの中心であるが、全ての層に一様に適用することは、性能と精度の両方の観点から、サブ最適である。
この研究は、学習可能な浮動小数点ビット幅割り当てのための微分可能な混合精度量子化フレームワークであるdMXを導入する。
我々は,Open Compute Project (OCP) 規格で定義されたデータ型のマイクロスケーリング浮動小数点(MXFP)ファミリへの適用について検討した。
層ごとのビット幅割り当ては、各層の浮動小数点形式がスカラーパラメータによってパラメータ化され、多変量設計空間を単一の学習可能なオフセットに折り畳む連続最適化問題として定式化される。
トレーニング中、このオフセットは連続的な値を取り、離散量子化フォーマット間の突然の振動を避ける。
温度ベースのアニールスケジュールは、学習したオフセットを段階的に離散化し、最終的な構成がトレーニングと推論の動作の急激な遷移なしに、ハードウェア互換のMXFPフォーマットにマップされることを保証する。
ターゲットアウェアの正規化用語は、平均ビット幅をユーザ指定予算に向けて設定し、推論コストの粗くきめ細かなプロキシとして機能し、モデル品質とデプロイメント効率のバランスをとる。
Llama, Qwen3, SmolLM2 など LLM の異なるファミリーで実験を行い, WikiText-2 の難易度と 4 つのゼロショット推論ベンチマークの精度を評価した。
これらの設定全体にわたって、dMXは一貫してパレート支配モデルを生成し、Kullback-Leibler (KL) 分散層選択ヒューリスティックスよりも改善し、モデル品質と平均ビット幅の間のトレードオフを効率的にナビゲートする。
関連論文リスト
- Multi-Fidelity Flow Matching: Cascaded Refinement of PDE Solutions [6.144605787421899]
マルチフィデリティフローマッチング(Multi-Fidelity Flow Matching)は、PDEソリューションのためのカスケード改善フレームワークである。
我々はこれをPDEソリューションのカスケード改善フレームワークであるMulti-Fidelity Flow Matching (MFFM)で活用する。
MFFMは、クエリ毎に決定論的ネットワーク評価を$L$で最良グリッドに達するマルチグリッド改善の学習アナログである。
論文 参考訳(メタデータ) (2026-05-15T16:02:18Z) - Depth Completion as Parameter-Efficient Test-Time Adaptation [66.72360181325877]
CAPAはパラメータ効率のよいテスト時間最適化フレームワークであり、深度補完のために事前訓練された3D基礎モデル(FM)を適用する。
ビデオの場合、CAPAはシーケンスレベルのパラメータ共有を導入し、時間的相関を利用して、堅牢性を改善し、複数フレームの一貫性を強制するために、すべてのフレームを共同で適用する。
論文 参考訳(メタデータ) (2026-02-16T13:53:23Z) - DP-LLM: Runtime Model Adaptation with Dynamic Layer-wise Precision Assignment [4.881985877863507]
DP-LLMは入力値に基づいて各層に動的に精度を割り当てる機構である。
DP-LLMは,従来の手法よりも優れた性能・遅延トレードオフを実現することを示す。
論文 参考訳(メタデータ) (2025-08-08T05:57:04Z) - Characterization and Mitigation of Training Instabilities in Microscaling Formats [6.025438902954768]
大規模言語モデルのトレーニングは、高価な計算処理です。
次世代ハードウェアアクセラレータは、より低い精度の算術形式をサポートするようになった。
モデル学習におけるブロックスケール精度フォーマットの課題と実現可能性について検討する。
論文 参考訳(メタデータ) (2025-06-25T18:25:08Z) - Recipes for Pre-training LLMs with MXFP8 [0.08732752045535426]
最大8Bパラメータを持つモデルを用いて,最大15Tトークンの高品質データセットに基づいてトレーニングを行った。
MXFP8-E4M3データ型と特定の数値変換アルゴリズムが,BF16で実施したデータと一致するトレーニングセッションを実現する方法を示す。
論文 参考訳(メタデータ) (2025-05-30T21:08:15Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
本稿では,機械学習におけるマルチタスクトレードオフに対処するパラメータ効率の高い新しい手法PaLoRAを紹介する。
実験の結果、PaLoRAは様々なデータセットで最先端のMTLとPFLのベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-10T21:25:51Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。