論文の概要: MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts
- arxiv url: http://arxiv.org/abs/2506.07533v1
- Date: Mon, 09 Jun 2025 08:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.861957
- Title: MoQAE: Mixed-Precision Quantization for Long-Context LLM Inference via Mixture of Quantization-Aware Experts
- Title(参考訳): MoQAE: 量子化の専門家の混合による長期LLM推論のための混合精度量子化
- Authors: Wei Tao, Haocheng Lu, Xiaoyang Qu, Bin Zhang, Kai Lu, Jiguang Wan, Jianzong Wang,
- Abstract要約: MoQAEは、量子化の専門家の混合による混合精度量子化法である。
この結果から,MoQAEは最先端のKVキャッシュ量子化手法よりも効率と効率の両面で優れていることがわかった。
- 参考スコア(独自算出の注目度): 29.11217299899888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the primary challenges in optimizing large language models (LLMs) for long-context inference lies in the high memory consumption of the Key-Value (KV) cache. Existing approaches, such as quantization, have demonstrated promising results in reducing memory usage. However, current quantization methods cannot take both effectiveness and efficiency into account. In this paper, we propose MoQAE, a novel mixed-precision quantization method via mixture of quantization-aware experts. First, we view different quantization bit-width configurations as experts and use the traditional mixture of experts (MoE) method to select the optimal configuration. To avoid the inefficiency caused by inputting tokens one by one into the router in the traditional MoE method, we input the tokens into the router chunk by chunk. Second, we design a lightweight router-only fine-tuning process to train MoQAE with a comprehensive loss to learn the trade-off between model accuracy and memory usage. Finally, we introduce a routing freezing (RF) and a routing sharing (RS) mechanism to further reduce the inference overhead. Extensive experiments on multiple benchmark datasets demonstrate that our method outperforms state-of-the-art KV cache quantization approaches in both efficiency and effectiveness.
- Abstract(参考訳): 大きな言語モデル(LLM)を長文推論に最適化する主な課題の1つは、キーバリュー(KV)キャッシュの高メモリ消費にある。
量子化のような既存のアプローチは、メモリ使用量の削減に有望な結果を示してきた。
しかし、現在の量子化法は、有効性と効率の両方を考慮することはできない。
本稿では,量子化の専門家の混合による新しい混合精度量子化手法であるMoQAEを提案する。
まず、異なる量子化ビット幅構成を専門家とみなし、従来のMoE法を用いて最適な構成を選択する。
従来のMoE方式では、トークンを1個ずつルータに入力することで生じる非効率を回避するために、トークンをチャンク単位でルータチャンクに入力する。
第2に、モデル精度とメモリ使用量のトレードオフを学習するために、MoQAEを包括的損失で訓練するための軽量ルータのみの微調整プロセスを設計する。
最後に、推論オーバーヘッドをさらに削減するために、ルーティング凍結(RF)とルーティング共有(RS)機構を導入する。
複数のベンチマークデータセットに対する大規模な実験により、我々の手法は効率と有効性の両方において最先端のKVキャッシュ量子化手法より優れていることが示された。
関連論文リスト
- TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。
提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。
本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文 参考訳(メタデータ) (2025-06-05T05:23:38Z) - CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。
キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。
HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-11-03T04:25:46Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - ExpertFlow: Optimized Expert Activation and Token Allocation for Efficient Mixture-of-Experts Inference [41.41316718220569]
ExpertFlowは、柔軟なルーティングを調整し、CPUとGPU間の効率的な専門家スケジューリングを可能にすることで、推論効率を向上させるように設計されている。
実験により、ExpertFlowは最大93.72%のGPUメモリを節約し、ベースライン法に比べて推論速度を2~10倍に向上することを示した。
論文 参考訳(メタデータ) (2024-10-23T15:24:54Z) - QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts [47.01697456105496]
Mixture-of-Experts (MoE)は、大規模言語モデルの学習能力をスケールアップする有望な方法である。
MoEは大きなパラメータサイズのためにメモリオーバーヘッドに悩まされる。
トレーニング後の量子化は、モデル圧縮に強力なアプローチを提供する。
論文 参考訳(メタデータ) (2024-06-12T12:44:48Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Differentiable Joint Pruning and Quantization for Hardware Efficiency [16.11027058505213]
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-20T20:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。