論文の概要: Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs
- arxiv url: http://arxiv.org/abs/2605.20315v1
- Date: Tue, 19 May 2026 17:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.295059
- Title: Mix-Quant: Quantized Prefilling, Precise Decoding for Agentic LLMs
- Title(参考訳): Mix-Quant: エージェントLLMの量子前処理, 精密復号化
- Authors: Haiquan Lu, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang,
- Abstract要約: 高速エージェント推論のための簡易かつ効果的な位相認識量子化フレームワークであるMix-Quantを提案する。
我々は,Mix-Quantがタスク性能を保ち,高い効率向上を実現し,プリフィル時に最大3倍の高速化を実現していることを示す。
- 参考スコア(独自算出の注目度): 78.01752802974855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents have recently emerged as a powerful paradigm for solving complex tasks through planning, tool use, memory retrieval, and multi-step interaction. However, these agentic workflows often introduce substantial input-side overhead, making the compute-intensive prefilling stage a key bottleneck in long-context, multi-turn inference. In this work, we propose Mix-Quant, a simple and effective phase-aware quantization framework for fast agentic inference. We first investigate FP4 quantization in agentic LLM workflows and observe that quantizing the entire inference process can incur significant performance degradation. In contrast, the prefilling stage exhibits substantial quantization redundancy and can therefore be quantized with minimal accuracy loss, despite being the dominant source of computation. Based on this insight, we apply high-throughput NVFP4 quantization to the prefilling phase while preserving BF16 precision for decoding. By decoupling prefilling acceleration from decoding quality, Mix-Quant combines phase-aware algorithmic quantization with hardware-efficient NVFP4 execution to alleviate the inference bottleneck in LLM agents. Extensive experiments across long-context and agentic benchmarks demonstrate that Mix-Quant largely preserves task performance while delivering significant efficiency improvements, achieving up to a 3x speedup during prefilling.
- Abstract(参考訳): LLMエージェントは、計画、ツール使用、メモリ検索、マルチステップインタラクションを通じて複雑なタスクを解決するための強力なパラダイムとして最近登場した。
しかしながら、これらのエージェントワークフローは入力側のオーバーヘッドをかなり引き起こすことが多く、長いコンテキストのマルチターン推論において、計算集約的なプリフィルステージが重要なボトルネックとなる。
本研究では,高速エージェント推論のための簡易かつ効果的な位相対応量子化フレームワークであるMix-Quantを提案する。
まず、エージェントLLMワークフローにおけるFP4量子化について検討し、推論プロセス全体の量子化が大幅な性能劣化を引き起こすことを観察する。
対照的に、プリフィルの段階ではかなりの量子化冗長性を示しており、計算の主流であるにもかかわらず、最小限の精度の損失で量子化することができる。
この知見に基づいて、デコードのためのBF16精度を保ちながら、高スループットNVFP4量子化を前処理相に適用する。
プリフィル化アクセラレーションをデコード品質から切り離すことで、Mix-Quantは位相認識のアルゴリズム量子化とハードウェア効率の良いNVFP4の実行を組み合わせ、LLMエージェントの推論ボトルネックを軽減する。
長期コンテキストとエージェントベンチマークの広範な実験により、Mix-Quantはタスクパフォーマンスを保ちながら、大幅な効率の改善を実現し、プリフィル中に最大3倍のスピードアップを実現している。
関連論文リスト
- SOAR: Scale Optimization for Accurate Reconstruction in NVFP4 Quantization [19.022444007775896]
NVFP4は、最近、大規模言語モデルの効率的な4ビットマイクロスケーリングフォーマットとして登場した。
既存の方法は、しばしば、柔軟性のないスケールの選択と、量子化と量子化のスケールの併用による、最適以下の性能をもたらす。
NVFP4量子化の精度を向上する新しい学習後量子化フレームワークであるSOAR(Scale Optimization for Accurate Reconstruction)を提案する。
論文 参考訳(メタデータ) (2026-05-12T15:13:18Z) - P3-LLM: An Integrated NPU-PIM Accelerator for LLM Inference Using Hybrid Numerical Formats [10.43214279354138]
P3-LLMは、ハイブリッド数値形式を用いた推論のための新しい統合アクセラレータである。
P3-LLMはKV-cache量子化とウェイトアクティベーション量子化の両方の観点から最先端の精度を達成する。
論文 参考訳(メタデータ) (2025-11-10T08:29:34Z) - MixPE: Quantization and Hardware Co-design for Efficient LLM Inference [16.42907854119748]
MixPEは、大規模言語モデルにおける効率的な低ビット量子化のために設計された、特殊な混合精度処理素子である。
我々は、MixPEが最先端の量子化アクセラレータを2.6倍のスピードアップと1.4倍のエネルギー削減で超えることを示した。
論文 参考訳(メタデータ) (2024-11-25T07:34:53Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。
LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。
我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。