論文の概要: AMQ: Enabling AutoML for Mixed-precision Weight-Only Quantization of Large Language Models
- arxiv url: http://arxiv.org/abs/2509.12019v1
- Date: Mon, 15 Sep 2025 14:59:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.356039
- Title: AMQ: Enabling AutoML for Mixed-precision Weight-Only Quantization of Large Language Models
- Title(参考訳): AMQ: 混合精度ウェイトオンリーな大規模言語モデルの量子化のためのAutoMLの実現
- Authors: Sangjun Lee, Seung-taek Woo, Jungyu Jin, Changhun Lee, Eunhyeok Park,
- Abstract要約: AMQ(Automated Mixed-Precision Weight-Only Quantization)は、モデルの品質とメモリ使用量のバランスをとるために、層単位での量子化ビット幅を割り当てるフレームワークである。
AMQ はこの課題を,(1) 未完成な構成を除外するための事前知識を用いた探索空間のプルーニング,(2) 探索中のコストの高いフォーマット変換をバイパスするための量子化プロキシ,(3) 評価オーバーヘッドを最小限に抑える品質予測器,(4) 高速で安定した収束のための反復的な探索・更新戦略の4つの重要な革新によって克服していることを示す。
- 参考スコア(独自算出の注目度): 23.510426494456514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enable broader deployment of Large Language Models (LLMs), it is essential to identify the best-performing model under strict memory constraints. We present AMQ, Automated Mixed-Precision Weight-Only Quantization, a framework that assigns layer-wise quantization bit-widths to optimally balance model quality and memory usage. However, the combinatorial search space, with over 10^{100} possible configurations, makes conventional black-box optimization infeasible. AMQ overcomes this challenge through four key innovations:(1) search space pruning using prior knowledge to exclude unpromising configurations, (2) quantization proxy to bypass costly format conversions during search, (3) quality predictor to minimize evaluation overhead, and (4) iterative search-and-update strategy for fast and stable convergence. By integrating these components, AMQ efficiently explores the quality-efficiency landscape, reaching the Pareto frontier and yielding LLMs that are both compact and high-performing. Our code is available at https://github.com/dlwns147/amq.
- Abstract(参考訳): LLM(Large Language Models)のより広範な展開を可能にするためには、厳密なメモリ制約の下で最高のパフォーマンスのモデルを特定することが不可欠である。
AMQ(Automated Mixed-Precision Weight-Only Quantization)は、モデルの品質とメモリ使用量の最適なバランスをとるために、層単位での量子化ビット幅を割り当てるフレームワークである。
しかし、10^{100}以上の構成が可能な組合せ探索空間は、従来のブラックボックス最適化を不可能にしている。
AMQ はこの課題を,(1) 未成熟な構成を除外するための事前知識を用いた探索空間の刈取,(2) 探索中のコストの高いフォーマット変換をバイパスするための量子化プロキシ,(3) 評価オーバーヘッドを最小限に抑える品質予測器,(4) 高速で安定した収束のための反復的な探索・更新戦略という4つの重要なイノベーションを通じて克服している。
これらのコンポーネントを統合することで、AMQは効率の良い環境を効率的に探索し、Paretoフロンティアに到達し、コンパクトかつ高性能なLCMを得る。
私たちのコードはhttps://github.com/dlwns147/amq.comから入手可能です。
関連論文リスト
- Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - JAQ: Joint Efficient Architecture Design and Low-Bit Quantization with Hardware-Software Co-Exploration [38.264287509278866]
本稿では,3つの臨界次元を協調的に最適化するJAQフレームワークを提案する。
ソフトウェア側のメモリオーバーヘッド: 低精度の量子化対応トレーニングは、メモリ使用量を大幅に増加させる可能性がある。
ハードウェア側での検索時間: ハードウェアパラメータの離散的な性質と、コンパイラ最適化と個々の演算子間の複雑な相互作用は、アクセラレーター検索に時間を要する。
論文 参考訳(メタデータ) (2025-01-09T16:10:06Z) - MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design [1.3589914205911104]
我々は,その精度,メモリ消費,システム効率の三角形に対する効果に関する一般量子化原理を包括的に分析する。
出力特徴間の混合精度量子化の新しい最適化空間を探索するMixLLMを提案する。
本稿では,アルゴリズム-システム共設計の量子化構成のスイートスポットについて述べる。
論文 参考訳(メタデータ) (2024-12-19T07:15:15Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - Accurate and Efficient Fine-Tuning of Quantized Large Language Models Through Optimal Balance [20.659750151408186]
大規模言語モデル(LLM)は、様々な領域で素晴らしいパフォーマンスを示している。
パラメータ量子化とローランド適応(LoRA)を組み合わせた既存ソリューション
QA-BLoRA(Quantization-Aware Fine-tuning with Balanced Low-Rank Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-07-24T06:16:37Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。