論文の概要: FlexQuant: A Flexible and Efficient Dynamic Precision Switching Framework for LLM Quantization
- arxiv url: http://arxiv.org/abs/2506.12024v1
- Date: Wed, 21 May 2025 07:42:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.583274
- Title: FlexQuant: A Flexible and Efficient Dynamic Precision Switching Framework for LLM Quantization
- Title(参考訳): FlexQuant: LLM量子化のための柔軟で効率的な動的精度スイッチングフレームワーク
- Authors: Fangxin Liu, Zongwu Wang, JinHong Xia, Junping Zhao, Jian Liu, Haibing Guan, Li Jiang,
- Abstract要約: 推論速度と精度のトレードオフを最適化する動的精度スイッチングフレームワークFlexQuantを提案する。
我々の研究は量子化戦略の包括的分析を提供し、最適な切替のための精度要求モデルを導入し、効率的なきめ細かな精密管理を実現する。
実験の結果、FlexQuantは様々な言語タスクで1.3倍のエンドツーエンドのスピードアップを達成し、精度の損失は無視できることがわかった。
- 参考スコア(独自算出の注目度): 18.041828697950812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of large language models (LLMs) has exacerbated the memory bottleneck due to the widening gap between model parameter scaling and hardware capabilities. While post-training quantization (PTQ) techniques effectively reduce memory overhead, existing methods predominantly rely on static quantization strategies, which struggle to adapt to dynamic workloads. To address this, we propose FlexQuant, a dynamic precision-switching framework that optimizes the trade-off between inference speed and accuracy. Leveraging model perplexity entropy and Kullback-Leibler (KL) divergence, FlexQuant enables fine-grained, layer-wise mixed-precision quantization and dynamically adjusts bit-widths during each token generation. Our work provides a comprehensive analysis of quantization strategies, introduces a precision requirement model for optimal switching, and implements efficient fine-grained precision management. Experimental results demonstrate that FlexQuant achieves a 1.3x end-to-end speedup across diverse language tasks with negligible accuracy loss introduced. This framework offers a flexible and adaptive solution for efficient LLM deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、モデルパラメータのスケーリングとハードウェア機能とのギャップの拡大により、メモリボトルネックを悪化させた。
トレーニング後の量子化(PTQ)技術はメモリオーバーヘッドを効果的に削減しますが、既存の手法は主に静的な量子化戦略に依存しています。
これを解決するために、推論速度と精度のトレードオフを最適化する動的精度スイッチングフレームワークFlexQuantを提案する。
FlexQuantは、モデルパープレキシティエントロピーとKL(Kullback-Leibler)の発散を利用して、微細で層単位での混合精度の量子化を可能にし、トークン生成毎にビット幅を動的に調整する。
我々の研究は量子化戦略を包括的に分析し、最適なスイッチングのための精度要求モデルを導入し、効率的な微粒化管理を実現する。
実験の結果、FlexQuantは様々な言語タスクにまたがって1.3倍のエンドツーエンドのスピードアップを実現している。
このフレームワークは、効率的なLLMデプロイメントのためのフレキシブルで適応的なソリューションを提供する。
関連論文リスト
- Accelerating LLM Inference with Flexible N:M Sparsity via A Fully Digital Compute-in-Memory Accelerator [5.985414012866983]
固定N:M構造を持つ大言語モデル(LLM)はスパースモデルの表現性を制限している。
フレキシブルな層状外層密度対応N:Mスパシティ(FLOW)選択法を提案する。
次に、フレキシブルで低オーバーヘッドのデジタルコンピュートインメモリアーキテクチャ(FlexCiM)を紹介します。
論文 参考訳(メタデータ) (2025-04-19T17:47:01Z) - Q-MambaIR: Accurate Quantized Mamba for Efficient Image Restoration [34.43633070396096]
状態空間モデル(SSM)は、画像復元(IR)において大きな注目を集めている。
Q-MambaIRは、IRタスクのための正確で効率的で柔軟な量子マンバである。
論文 参考訳(メタデータ) (2025-03-27T20:34:11Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [35.16907522675046]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
下流データセットでトレーニング済みのモデルを微調整することで、大幅なパフォーマンス向上を実現している。
このプロセスは通常、大量の高価なハイエンドGPUを必要とする。
トレーニング状態の量子化と格納を行う量子化フルパラメータチューニングフレームワークであるQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。