論文の概要: MF-QAT: Multi-Format Quantization-Aware Training for Elastic Inference
- arxiv url: http://arxiv.org/abs/2604.00529v1
- Date: Wed, 01 Apr 2026 06:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.865479
- Title: MF-QAT: Multi-Format Quantization-Aware Training for Elastic Inference
- Title(参考訳): MF-QAT: 弾性推論のためのマルチフォーム量子化学習
- Authors: Zifei Xu, Sayeh Sharify, Hesham Mostafa,
- Abstract要約: 量子化対応トレーニング(QAT)は通常、単一のターゲット数値フォーマットで実行される。
マルチフォーマットQATについて検討し、単一のモデルを複数の量子化フォーマットで堅牢にトレーニングする。
本稿では,MXINT と MXFP の双方に対するスライス・アンド・スケール変換手法を提案する。
- 参考スコア(独自算出の注目度): 1.938624051379935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Quantization-aware training (QAT) is typically performed for a single target numeric format, while practical deployments often need to choose numerical precision at inference time based on hardware support or runtime constraints. We study multi-format QAT, where a single model is trained to be robust across multiple quantization formats. We find that multi-format QAT can match single-format QAT at each target precision, yielding one model that performs well overall across different formats, even formats that were not seen during training. To enable practical deployment, we propose the Slice-and-Scale conversion procedure for both MXINT and MXFP that converts a high-precision representation into lower-precision formats without re-training. Building on this, we introduce a pipeline that (i) trains a model with multi-format QAT, (ii) stores a single anchor format checkpoint (MXINT8/MXFP8), and (iii) allows on-the-fly conversion to lower MXINT or MXFP formats at runtime with negligible-or no-additional accuracy degradation. Together, these components provide a practical path to elastic precision scaling and allow selecting the runtime format at inference time across diverse deployment targets.
- Abstract(参考訳): 量子化対応トレーニング(QAT)は通常、単一のターゲットの数値フォーマットで実行されるが、実際のデプロイメントでは、ハードウェアのサポートや実行時の制約に基づいて、推論時に数値の精度を選択する必要がある。
マルチフォーマットQATについて検討し、単一のモデルを複数の量子化フォーマットで堅牢にトレーニングする。
マルチフォーマットのQATは、各目標精度で単一フォーマットのQATと一致し、トレーニング中に見えなかったフォーマットでさえも、異なるフォーマット全体にわたって良好に機能する1つのモデルが得られることがわかった。
そこで本研究では,MXINT と MXFP 用のスライス・アンド・スケール変換手法を提案する。
これに基づいてパイプラインを導入します。
(i)マルチフォーマットQATでモデルを訓練する。
(ii)単一のアンカーフォーマットチェックポイント(MXINT8/MXFP8)を格納し、
(iii) 実行時にMXINTまたはMXFPフォーマットのオンザフライ変換が可能で、無視または追加の精度の劣化が生じる。
これらのコンポーネントは共に、弾力性のあるスケーリングへの実践的なパスを提供し、多様なデプロイメントターゲット間の推論時間でランタイムフォーマットを選択することができる。
関連論文リスト
- SQ-format: A Unified Sparse-Quantized Hardware-friendly Data Format for LLMs [8.787017031267482]
後学習量子化(PTQ)は、大規模言語モデル(LLM)の民主化において重要な役割を果たす
既存の低ビット量子化とスペーサー化技術は、ハードウェアサポートが限られているため、精度と効率のバランスをとるのが難しい。
本稿では,量子化とスパース化のための統一データフォーマットであるスパース量子フォーマット(SQ-format)を提案する。
論文 参考訳(メタデータ) (2025-12-05T03:58:04Z) - CDLM: Consistency Diffusion Language Models For Faster Sampling [54.886467592798]
拡散言語モデル(DLM)は有望な並列生成パラダイムを提供するが、推論が遅い。
本稿では,両方のボトルネックに同時に対処するトレーニングベースの加速度法CDLMを紹介する。
実験では、CDLMは3.6x-14.5倍のレイテンシを実現し、数学やコーディングタスクの競合精度を維持している。
論文 参考訳(メタデータ) (2025-11-24T16:21:25Z) - Optimal Formats for Weight Quantisation [6.073675653083644]
本稿では,量子化フォーマットの体系的設計と分析のためのフレームワークを提案する。
一般的なフォーマットの実践的パフォーマンスは,可変長符号を用いた値表現能力に起因していることが示される。
論文 参考訳(メタデータ) (2025-05-19T11:26:54Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - MatFormer: Nested Transformer for Elastic Inference [91.45687988953435]
MatFormerは、多様なデプロイメント制約にまたがる弾性推論を提供するように設計された、新しいTransformerアーキテクチャである。
MatFormerは、標準的なTransformerモデルにネストフィードフォワードネットワーク(FFN)ブロック構造を組み込むことで、これを実現している。
8億5000万デコーダのみのMatFormer言語モデル(MatLM)により,5億2200万から8億5千万のパラメータにまたがる複数の小さなモデルを抽出できることを示す。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Integer or Floating Point? New Outlooks for Low-Bit Quantization on
Large Language Models [17.055400141733124]
低ビット整数形式(例えばINT8/INT4)は、大規模言語モデル(LLM)の従来の選択肢である。
低ビット浮動小数点フォーマット(例えばFP8/FP4)は魅力的な代替手段であり、NVIDIAのH100 GPUのような最先端ハードウェアからサポートを受けている。
本稿では,階層的に最適なフォーマットを選択するMoFQ(Mixture of Formats Quantization)を提案する。
論文 参考訳(メタデータ) (2023-05-21T05:28:37Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。