論文の概要: SiLQ: Simple Large Language Model Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2507.16933v1
- Date: Tue, 22 Jul 2025 18:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.731671
- Title: SiLQ: Simple Large Language Model Quantization-Aware Training
- Title(参考訳): SiLQ: シンプルな大規模言語モデル量子化学習
- Authors: Steven K. Esser, Jeffrey L. McKinstry, Deepika Bablani, Rathinakumar Appuswamy, Dharmendra S. Modha,
- Abstract要約: 大規模言語モデルは、推論時間遅延、モデルサイズ、エネルギー消費を減らすために定量化することができる。
妥当な時間で精度の損失を最小限に抑えた量子モデルを提供することが課題である。
ここでは、先行する量子化手法よりも優れた、単純でエンドツーエンドな量子化対応トレーニング手法を示す。
- 参考スコア(独自算出の注目度): 3.09578981466695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models can be quantized to reduce inference time latency, model size, and energy consumption, thereby delivering a better user experience at lower cost. A challenge exists to deliver quantized models with minimal loss of accuracy in reasonable time, and in particular to do so without requiring mechanisms incompatible with specialized inference accelerators. Here, we demonstrate a simple, end-to-end quantization-aware training approach that, with an increase in total model training budget of less than 0.1%, outperforms the leading published quantization methods by large margins on several modern benchmarks, with both base and instruct model variants. The approach easily generalizes across different model architectures, can be applied to activations, cache, and weights, and requires the introduction of no additional operations to the model other than the quantization itself.
- Abstract(参考訳): 大規模な言語モデルは、推論時間遅延、モデルサイズ、エネルギー消費を減らすために定量化することができ、それによって、低コストでより良いユーザーエクスペリエンスを提供することができる。
妥当な時間で精度の損失を最小限に抑え、特に特別な推論加速器と互換性のないメカニズムを必要とせず、量子化されたモデルを提供することが課題である。
本稿では, モデル学習予算の0.1%未満の増加とともに, ベースモデルとインストラクションモデルの両方を併用した, 最新のベンチマークにおいて, 先行する量子化手法を大きなマージンで上回る, シンプルなエンドツーエンドの量子化対応トレーニング手法を示す。
このアプローチは、さまざまなモデルアーキテクチャを簡単に一般化し、アクティベーション、キャッシュ、ウェイトに適用することができ、量子化自身以外のモデルに追加の操作を導入する必要はない。
関連論文リスト
- Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
LLaMA 7B と 13B のベンチマーク実験により,ApiQ の精度劣化をそれぞれ 10.85% と 7.54% 削減できることを示した。
論文 参考訳(メタデータ) (2025-04-14T19:31:21Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - Optimization of DNN-based speaker verification model through efficient quantization technique [15.250677730668466]
ディープモデルの量子化は、計算コストとメモリコストの両方を削減する手段を提供する。
本研究では,話者検証モデルの定量化のための最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-12T05:03:10Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Genie: Show Me the Data for Quantization [2.7286395031146062]
本稿では,高品質な量子化ネットワークを数時間で生成するゼロショット量子化のためのポストトレーニング量子化手法を提案する。
また,学習後の量子化アルゴリズムを提案し,量子化モデルの性能を向上させる。
論文 参考訳(メタデータ) (2022-12-09T11:18:40Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - An Investigation on Different Underlying Quantization Schemes for
Pre-trained Language Models [33.49417100179159]
我々はk平均量子化を実装し、BERTの固定精度量子化と線形量子化の性能を比較する。
また、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。
論文 参考訳(メタデータ) (2020-10-14T14:05:06Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。