Fugu-MT 論文翻訳(概要): How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

論文の概要: How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study

arxiv url: http://arxiv.org/abs/2404.14047v1
Date: Mon, 22 Apr 2024 10:03:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 14:26:08.598873
Title: How Good Are Low-bit Quantized LLaMA3 Models? An Empirical Study
Title（参考訳）: 低ビット量子化LLaMA3モデルについて : 実証的研究
Authors: Wei Huang, Xudong Ma, Haotong Qin, Xingyu Zheng, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno,
Abstract要約: MetaのLLaMAファミリーは、最も強力なオープンソースのLarge Language Model(LLM)シリーズの1つになった。我々はLLaMA3の低ビット幅への量子化能力について検討する。
参考スコア（独自算出の注目度）: 54.91212829143966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Meta's LLaMA family has become one of the most powerful open-source Large Language Model (LLM) series. Notably, LLaMA3 models have recently been released and achieve impressive performance across various with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-limited scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration holds the potential to unveil new insights and challenges for low-bit quantization of LLaMA3 and other forthcoming LLMs, especially in addressing performance degradation problems that suffer in LLM compression. Specifically, we evaluate the 10 existing post-training quantization and LoRA-finetuning methods of LLaMA3 on 1-8 bits and diverse datasets to comprehensively reveal LLaMA3's low-bit quantization performance. Our experiment results indicate that LLaMA3 still suffers non-negligent degradation in these scenarios, especially in ultra-low bit-width. This highlights the significant performance gap under low bit-width that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, pushing the LLMs to lower bit-width with higher accuracy for being practical. Our project is released on https://github.com/Macaronlin/LLaMA3-Quantization and quantized LLaMA3 models are released in https://huggingface.co/LLMQ.
Abstract（参考訳）: MetaのLLaMAファミリーは、最も強力なオープンソースのLarge Language Model(LLM)シリーズの1つになった。特に、LLaMA3モデルは、最近リリースされ、15T以上のデータに対する超大規模事前トレーニングによって、様々な種類の印象的なパフォーマンスを実現している。資源制限シナリオにおけるLLMに対する低ビット量子化の広範な適用を考えると、LLaMA3の低ビット幅への量子化時の能力について検討する。この探索は、特にLLM圧縮に苦しむ性能劣化問題に対処するために、LLaMA3や他のLLMの低ビット量子化の新しい洞察と課題を明らかにする可能性を秘めている。具体的には,LLaMA3の1～8ビットおよび多種多様なデータセット上での学習後量子化とLLaMA3のLoRAファインタニングの10つの既存手法を評価し,LLaMA3の低ビット量子化性能を包括的に明らかにする。実験結果から,LLaMA3はこれらのシナリオ,特に超低ビット幅において,まだ非負の劣化に悩まされていることが示唆された。これは、将来の開発でブリッジする必要がある低ビット幅での大幅なパフォーマンスギャップを浮き彫りにする。この実験的な研究は将来のモデルを進める上で有益であることが期待され、LLMをより精度の高いビット幅に推し進める。我々のプロジェクトはhttps://github.com/Macaronlin/LLaMA3-Quantizationでリリースされ、量子化されたLLaMA3モデルはhttps://huggingface.co/LLMQでリリースされています。

関連論文リスト

Precision Where It Matters: A Novel Spike Aware Mixed-Precision Quantization Strategy for LLaMA-based Language Models [1.4999444543328293]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。本稿では,LLaMAアーキテクチャとその導関数に着目し,LLMの量子化について検討する。 LLaMAモデルに適した新しい混合精度量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-30T11:52:18Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization [5.7672452948056545]
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。 W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
論文参考訳（メタデータ） (2024-08-27T15:03:01Z)
Spectra: Surprising Effectiveness of Pretraining Ternary Language Models at Scale [16.865532646589987]
本稿では,従来の浮動小数点モデル(FloatLM)とその後量子化バージョン(QuantLM)の代替として,低ビット幅モデル,特に第三言語モデル(TriLM)の事前学習について検討する。我々は、FloatLMs、QuantLMs、TriLMsを含む複数のビット幅にまたがる最初のオープンなLLMスイートであるSpectra LLMスイートを、300Bトークンでトレーニングされた99Mから3.9Bのパラメータで紹介する。
論文参考訳（メタデータ） (2024-07-17T05:53:20Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-26T17:45:36Z)
Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.450141240227484]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文参考訳（メタデータ） (2024-02-16T09:06:06Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。 LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文参考訳（メタデータ） (2023-10-02T13:53:03Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。