論文の概要: An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs
- arxiv url: http://arxiv.org/abs/2404.14047v2
- Date: Fri, 19 Jul 2024 05:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 23:27:33.364497
- Title: An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs
- Title(参考訳): LLaMA3量子化の実験的研究:LLMからMLLMへ
- Authors: Wei Huang, Xingyu Zheng, Xudong Ma, Haotong Qin, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno,
- Abstract要約: 本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
- 参考スコア(独自算出の注目度): 54.91212829143966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The LLaMA family has become one of the most powerful open-source Large Language Models (LLMs) and the popular LLM backbones of Multimodal Large Language Models (MLLMs), widely applied in Computer Vision (CV) and Natural Language Understanding (NLU) tasks. Notably, LLaMA3 models have recently been released and achieve impressive performance across various with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-limited scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration can potentially unveil new insights and challenges for low-bit quantization of LLaMA3 and other forthcoming LLMs, especially in addressing performance degradation problems that suffer in LLM compression. Specifically, we comprehensively evaluate the 10 existing post-training quantization and LoRA-finetuning methods of LLaMA3 on 1-8 bits and diverse datasets to reveal LLaMA3's low-bit quantization performance. To uncover the capabilities of low-bit quantized MLLM, we assessed the performance of the LLaMA3-based LLaVA-Next-8B model under 2-4 ultra-low bits with post-training quantization methods. Our experimental results indicate that LLaMA3 still suffers non-negligent degradation in linguistic and visual contexts, particularly under ultra-low bit widths. This highlights the significant performance gap under low bit-width that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, driving LLMs and MLLMs to achieve higher accuracy at lower bit to enhance practicality.
- Abstract(参考訳): LLaMAファミリーは、最も強力なオープンソースのLarge Language Models (LLMs) の1つとなり、コンピュータビジョン (CV) や自然言語理解 (NLU) のタスクに広く応用されているマルチモーダル・Large Language Models (MLLMs) のLLMバックボーンとして人気がある。
特に、LLaMA3モデルは、最近リリースされ、15T以上のデータに対する超大規模事前トレーニングにより、様々な種類の印象的なパフォーマンスを実現している。
資源制限シナリオにおけるLLMに対する低ビット量子化の広範な適用を考えると、LLaMA3の低ビット幅への量子化時の能力について検討する。
この探索により、LLaMA3や他のLLMの低ビット量子化の新たな洞察と課題、特にLLM圧縮に苦しむ性能劣化問題に対処できる可能性がある。
具体的には,LLaMA3の1-8ビットおよび多種多様なデータセット上で,学習後量子化とLLaMA3のLoRAファインタニング法を総合的に評価し,LLaMA3の低ビット量子化性能を明らかにする。
低ビット量子化MLLMの性能を明らかにするため,LLaMA3をベースとしたLLaVA-Next-8Bモデルの性能評価を行った。
実験結果から,LLaMA3は言語的・視覚的文脈,特に超低ビット幅の領域において,相変わらず劣化することが明らかとなった。
これは、将来の開発でブリッジする必要がある低ビット幅での大幅なパフォーマンスギャップを浮き彫りにする。
この実証研究は,LLMとMLLMを低ビットで高い精度で実現し,実用性を高めることによって,将来のモデルを進める上で有益であることが期待されている。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization [5.7672452948056545]
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。
W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。
我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
論文 参考訳(メタデータ) (2024-08-27T15:03:01Z) - Improving the Ability of Pre-trained Language Model by Imparting Large Language Model's Experience [4.814313782484443]
大規模言語モデル (LLM) と事前訓練型言語モデル (LM) は多くのソフトウェア工学のタスクにおいて驚くべき成功を収めた。
我々は、LLMを用いてドメイン固有のデータを生成し、目標タスクにおける事前学習されたLMの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-16T06:37:59Z) - Spectra: Surprising Effectiveness of Pretraining Ternary Language Models at Scale [16.865532646589987]
本稿では,従来の浮動小数点モデル(FloatLM)とその後量子化バージョン(QuantLM)の代替として,低ビット幅モデル,特に第三言語モデル(TriLM)の事前学習について検討する。
我々は、FloatLMs、QuantLMs、TriLMsを含む複数のビット幅にまたがる最初のオープンなLLMスイートであるSpectra LLMスイートを、300Bトークンでトレーニングされた99Mから3.9Bのパラメータで紹介する。
論文 参考訳(メタデータ) (2024-07-17T05:53:20Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。
モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。
本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-26T17:45:36Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。