論文の概要: An empirical study of LLaMA3 quantization: from LLMs to MLLMs
- arxiv url: http://arxiv.org/abs/2404.14047v3
- Date: Mon, 13 Jan 2025 09:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:23:20.445079
- Title: An empirical study of LLaMA3 quantization: from LLMs to MLLMs
- Title(参考訳): LLaMA3量子化の実験的研究--LLMからMLLMへ
- Authors: Wei Huang, Xingyu Zheng, Xudong Ma, Haotong Qin, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno,
- Abstract要約: LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
- 参考スコア(独自算出の注目度): 54.91212829143966
- License:
- Abstract: The LLaMA family, a collection of foundation language models ranging from 7B to 65B parameters, has become one of the most powerful open-source large language models (LLMs) and the popular LLM backbone of multi-modal large language models (MLLMs), widely used in computer vision and natural language understanding tasks. In particular, LLaMA3 models have recently been released and have achieved impressive performance in various domains with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-constrained scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration can potentially provide new insights and challenges for the low-bit quantization of LLaMA3 and other future LLMs, especially in addressing performance degradation issues that suffer in LLM compression. Specifically, we comprehensively evaluate the 10 existing post-training quantization and LoRA fine-tuning (LoRA-FT) methods of LLaMA3 on 1-8 bits and various datasets to reveal the low-bit quantization performance of LLaMA3. To uncover the capabilities of low-bit quantized MLLM, we assessed the performance of the LLaMA3-based LLaVA-Next-8B model under 2-4 ultra-low bits with post-training quantization methods. Our experimental results indicate that LLaMA3 still suffers from non-negligible degradation in linguistic and visual contexts, particularly under ultra-low bit widths. This highlights the significant performance gap at low bit-width that needs to be addressed in future developments. We expect that this empirical study will prove valuable in advancing future models, driving LLMs and MLLMs to achieve higher accuracy at lower bit to enhance practicality. Our project is released on https://github.com/Macaronlin/LLaMA3-Quantization , and quantized models are released at https://huggingface.co/Efficient-ML .
- Abstract(参考訳): 7Bから65Bまでの基礎言語モデルのコレクションであるLLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つとなり、コンピュータビジョンや自然言語理解タスクで広く使われているマルチモーダルな大規模言語モデル(MLLM)のバックボーンとして人気がある。
特に、LLaMA3モデルは、最近リリースされ、15T以上のデータに対する超大規模事前トレーニングで、様々な領域で印象的なパフォーマンスを実現している。
資源制約シナリオにおけるLLMに対する低ビット量子化の広範な適用を考えると、LLaMA3の低ビット幅への量子化能力について検討する。
この探索は、LLaMA3や他の将来のLLMの低ビット量子化、特にLLM圧縮に苦しむ性能劣化問題に対する新たな洞察と課題を提供する可能性がある。
具体的には、LLaMA3の1-8ビットおよび様々なデータセット上で、LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)法を総合的に評価し、LLaMA3の低ビット量子化性能を明らかにする。
低ビット量子化MLLMの性能を明らかにするため,LLaMA3をベースとしたLLaVA-Next-8Bモデルの性能評価を行った。
実験結果から,LLaMA3は言語的・視覚的文脈,特に超低ビット幅での非無視的劣化に悩まされていることが示唆された。
これは、将来の開発で対処する必要がある低ビット幅での大幅なパフォーマンスギャップを浮き彫りにする。
我々は,LLMとMLLMを低ビットで高い精度で実現し,実用性を高めることによって,将来のモデルを進める上で,この実証研究が有益であることが期待されている。
私たちのプロジェクトはhttps://github.com/Macaronlin/LLaMA3-Quantization でリリースされ、量子化されたモデルはhttps://huggingface.co/Efficient-ML でリリースされます。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization [5.7672452948056545]
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。
W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。
我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
論文 参考訳(メタデータ) (2024-08-27T15:03:01Z) - Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Spectra: Surprising Effectiveness of Pretraining Ternary Language Models at Scale [16.865532646589987]
本稿では,従来の浮動小数点モデル(FloatLM)とその後量子化バージョン(QuantLM)の代替として,低ビット幅モデル,特に第三言語モデル(TriLM)の事前学習について検討する。
我々は、FloatLMs、QuantLMs、TriLMsを含む複数のビット幅にまたがる最初のオープンなLLMスイートであるSpectra LLMスイートを、300Bトークンでトレーニングされた99Mから3.9Bのパラメータで紹介する。
論文 参考訳(メタデータ) (2024-07-17T05:53:20Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。