Fugu-MT 論文翻訳(概要): A Comprehensive Evaluation of Quantization Strategies for Large Language Models

論文の概要: A Comprehensive Evaluation of Quantization Strategies for Large Language Models

arxiv url: http://arxiv.org/abs/2402.16775v1
Date: Mon, 26 Feb 2024 17:45:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 19:52:17.862612
Title: A Comprehensive Evaluation of Quantization Strategies for Large Language Models
Title（参考訳）: 大規模言語モデルのための量子化戦略の総合的評価
Authors: Renren Jin, Jiangcun Du, Wuwei Huang, Wei Liu, Jian Luan, Bin Wang, Deyi Xiong
Abstract要約: 大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
参考スコア（独自算出の注目度）: 44.14607761793267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Increasing the number of parameters in large language models (LLMs) usually improves performance in downstream tasks but raises compute and memory costs, making deployment difficult in resource-limited settings. Quantization techniques, which reduce the bits needed for model weights or activations with minimal performance loss, have become popular due to the rise of LLMs. However, most quantization studies use pre-trained LLMs, and the impact of quantization on instruction-tuned LLMs and the relationship between perplexity and benchmark performance of quantized LLMs are not well understood. Evaluation of quantized LLMs is often limited to language modeling and a few classification tasks, leaving their performance on other benchmarks unclear. To address these gaps, we propose a structured evaluation framework consisting of three critical dimensions: (1) knowledge \& capacity, (2) alignment, and (3) efficiency, and conduct extensive experiments across ten diverse benchmarks. Our experimental results indicate that LLMs with 4-bit quantization can retain performance comparable to their non-quantized counterparts, and perplexity can serve as a proxy metric for quantized LLMs on most benchmarks. Furthermore, quantized LLMs with larger parameter scales can outperform smaller LLMs. Despite the memory savings achieved through quantization, it can also slow down the inference speed of LLMs. Consequently, substantial engineering efforts and hardware support are imperative to achieve a balanced optimization of decoding speed and memory consumption in the context of quantized LLMs.
Abstract（参考訳）: 大規模言語モデル(llm)におけるパラメータ数の増加は通常、ダウンストリームタスクのパフォーマンスが向上するが、計算コストとメモリコストが増大し、リソース制限された設定でのデプロイメントが困難になる。モデル重みやアクティベーションに必要なビットを最小限の性能損失で削減する量子化技術は、LLMの台頭により人気を博している。しかし、ほとんどの量子化研究は事前学習されたLLMを用いており、量子化が命令調整されたLLMに与える影響や、量子化LLMのパープレキシティとベンチマーク性能の関係はよく理解されていない。量子化 LLM の評価は言語モデリングやいくつかの分類タスクに限られており、他のベンチマークでの性能は不明確である。これらのギャップに対処するために,(1)知識とキャパシティ,(2)アライメント,(3)効率という3つの重要な次元からなる構造化評価フレームワークを提案する。実験結果から, 4ビット量子化 LLM は, 量子化されていない LLM に匹敵する性能を保ち得ることが示唆された。さらに、パラメータスケールが大きい量子化LLMは、より小さなLLMよりも優れる。量子化によってメモリが節約されるにもかかわらず、llmの推論速度も遅くなる。したがって、量子化LDMの文脈において、デコード速度とメモリ消費のバランスの取れた最適化を実現するためには、かなりのエンジニアリング努力とハードウェアサポートが必要である。

関連論文リスト

SLMQuant:Benchmarking Small Language Model Quantization for Practical Deployment [45.23402877397396]
SLMQuantは,Small Language Models (SLM) に適用した場合に圧縮技術を評価するための最初の体系的ベンチマークである。我々は,SLM上での最先端量子化手法の動作を解析する。有効なSLM量子化を規定する重要な要因を特定し,SLM調整圧縮のための実用的な設計原理を提案する。
論文参考訳（メタデータ） (2025-11-17T06:20:33Z)
Smaller = Weaker? Benchmarking Robustness of Quantized LLMs in Code Generation [7.262231066394782]
大規模言語モデル(LLM)を圧縮する主流手法として量子化が登場したコード生成タスクにおいて,量子化がLLMのロバスト性に与える影響について,最初の系統的研究を行った。本研究は,LLMの量子化が実精度よりも優れた強靭性を示すことを示すことによって,従来の知恵に挑戦する。
論文参考訳（メタデータ） (2025-06-28T06:32:25Z)
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文参考訳（メタデータ） (2025-04-04T11:29:30Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B [11.832907585157638]
本稿では、7Bから405Bのモデルにおける命令調整型LLMの性能を評価する。我々は6つのタスクタイプ(常識Q&A、知識と言語理解、指示追従、幻覚検出、数学、対話)のパフォーマンスを評価する。
論文参考訳（メタデータ） (2024-09-17T10:31:37Z)
Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (2024-08-19T11:09:12Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文参考訳（メタデータ） (2024-06-15T12:02:14Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文参考訳（メタデータ） (2024-04-22T10:03:03Z)
What Makes Quantization for Large Language Models Hard? An Empirical Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文参考訳（メタデータ） (2024-03-11T03:42:51Z)
Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.450141240227484]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文参考訳（メタデータ） (2024-02-16T09:06:06Z)
Do Emergent Abilities Exist in Quantized Large Language Models: An Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文参考訳（メタデータ） (2023-07-16T15:11:01Z)
Memory-Efficient Fine-Tuning of Compressed Large Language Models via sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文参考訳（メタデータ） (2023-05-23T15:20:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。