論文の概要: Systematic Characterization of LLM Quantization: A Performance, Energy, and Quality Perspective
- arxiv url: http://arxiv.org/abs/2508.16712v1
- Date: Fri, 22 Aug 2025 14:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.141683
- Title: Systematic Characterization of LLM Quantization: A Performance, Energy, and Quality Perspective
- Title(参考訳): LLM量子化のシステム評価:性能・エネルギー・品質の観点から
- Authors: Tianyao Shi, Yi Ding,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な能力を示している。
彼らの重いリソース要求は、量子化還元精度を低ビットフォーマットに落とし、効率的なサービスを実現する。
まず、完全自動化されたオンラインキャラクタリゼーションフレームワークqMeterを開発し、その後、11の学習後LLM量子化手法の詳細なキャラクタリゼーションを行う。
- 参考スコア(独自算出の注目度): 5.1094466593178325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across diverse domains, but their heavy resource demands make quantization-reducing precision to lower-bit formats-critical for efficient serving. While many quantization methods exist, a systematic understanding of their performance, energy, and quality tradeoffs in realistic serving conditions remains a gap. In this work, we first develop a fully automated online characterization framework qMeter, and then conduct an in-depth characterization of 11 post-training LLM quantization methods across 4 model sizes (7B-70B) and two GPU architectures (A100, H100). We evaluate quantization at the application, workload, parallelism, and hardware levels under online serving conditions. Our study reveals highly task- and method-dependent tradeoffs, strong sensitivity to workload characteristics, and complex interactions with parallelism and GPU architecture. We further present three optimization case studies illustrating deployment challenges in capacity planning, energy-efficient scheduling, and multi-objective tuning. To the best of our knowledge, this is one of the first comprehensive application-, system-, and hardware-level characterization of LLM quantization from a joint performance, energy, and quality perspective.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にまたがる顕著な能力を示してきたが、その重いリソース要求は、効率的なサービスのために低ビットフォーマットへの量子化還元精度を重要視している。
多くの量子化法が存在するが、現実的なサービス条件における性能、エネルギー、品質のトレードオフに関する体系的な理解は依然としてギャップである。
本研究ではまず,完全自動化されたオンラインキャラクタリゼーションフレームワークqMeterを開発し,その後,4つのモデルサイズ (7B-70B) と2つのGPUアーキテクチャ (A100, H100) にまたがる11個の後処理LCM量子化手法の詳細な特徴付けを行う。
オンラインサービス条件下では,アプリケーション,ワークロード,並列処理,ハードウェアレベルでの量子化を評価する。
本研究は,タスク依存とメソッド依存のトレードオフ,ワークロード特性に対する強い感度,並列処理とGPUアーキテクチャとの複雑な相互作用を明らかにする。
さらに、キャパシティ計画、エネルギー効率スケジューリング、多目的チューニングにおけるデプロイメント課題を実証する3つの最適化ケーススタディについて述べる。
我々の知る限り、これは、共同性能、エネルギー、品質の観点からのLCM量子化の、最初の包括的なアプリケーション、システム、ハードウェアレベルの評価の1つである。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Is Quantization a Deal-breaker? Empirical Insights from Large Code Models [7.182449176083625]
我々は、広く使われている2つのコードモデル、CodeLlamaとDeepSeekCoderにActivation-Aware Weight Quantization (AWQ)を適用し、JavaとPythonコードを生成する。
この結果から,量子化は機能的正当性を保持するだけでなく,開発者が求める重要な定性的なコード属性も保持する,堅牢な手法であることが判明した。
論文 参考訳(メタデータ) (2025-07-13T14:58:19Z) - Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。
我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。
その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-04-04T11:29:30Z) - Large Language Model as Meta-Surrogate for Data-Driven Many-Task Optimization: A Proof-of-Principle Study [11.452011929848844]
本研究では,マルチタスク最適化を支援するメタサロゲートフレームワークを提案する。
問題群に適合するメタデータを持つ普遍モデルを定義することにより、多タスクフィットネス予測のための統一的なフレームワークを定式化する。
我々のフレームワークは、双対レベルの知識伝達 -- 代理レベルと個別レベルの両方 -- をサポートし、最適化の効率性と堅牢性を高めます。
論文 参考訳(メタデータ) (2025-03-11T11:13:11Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Art and Science of Quantizing Large-Scale Models: A Comprehensive Overview [4.166341398835636]
本稿では,モデルサイズ成長の必要性と影響を論じ,性能のメリットと計算課題,環境配慮について考察する。
ポストトレーニング量子化(PTQ)と量子化対応トレーニング(QAT)の両方を含む、さまざまな量子化手法を探求する。
これらの手法が、アウトレーヤや重み付け、アクティベーション量子化といった問題にどのように対処するかを検討し、最終的には、より持続可能な大規模モデルのデプロイに寄与する。
論文 参考訳(メタデータ) (2024-09-18T02:35:00Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Quantum Computing Enhanced Service Ecosystem for Simulation in Manufacturing [56.61654656648898]
本稿では,製造シミュレーションのための量子コンピューティングによるサービスエコシステムの枠組みを提案する。
我々は,これらの新しい計算パラダイムを定量的に評価することを目的とした2つの高価値ユースケースを分析した。
論文 参考訳(メタデータ) (2024-01-19T11:04:14Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [35.16907522675046]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
下流データセットでトレーニング済みのモデルを微調整することで、大幅なパフォーマンス向上を実現している。
このプロセスは通常、大量の高価なハイエンドGPUを必要とする。
トレーニング状態の量子化と格納を行う量子化フルパラメータチューニングフレームワークであるQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。