Fugu-MT 論文翻訳(概要): An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs

論文の概要: An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs

arxiv url: http://arxiv.org/abs/2404.14047v2
Date: Fri, 19 Jul 2024 05:31:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 23:27:33.364497
Title: An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs
Title（参考訳）: LLaMA3量子化の実験的研究:LLMからMLLMへ
Authors: Wei Huang, Xingyu Zheng, Xudong Ma, Haotong Qin, Chengtao Lv, Hong Chen, Jie Luo, Xiaojuan Qi, Xianglong Liu, Michele Magno,
Abstract要約: 本研究では、LLaMA3の低ビット幅への量子化能力について検討する。我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
参考スコア（独自算出の注目度）: 54.91212829143966
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The LLaMA family has become one of the most powerful open-source Large Language Models (LLMs) and the popular LLM backbones of Multimodal Large Language Models (MLLMs), widely applied in Computer Vision (CV) and Natural Language Understanding (NLU) tasks. Notably, LLaMA3 models have recently been released and achieve impressive performance across various with super-large scale pre-training on over 15T tokens of data. Given the wide application of low-bit quantization for LLMs in resource-limited scenarios, we explore LLaMA3's capabilities when quantized to low bit-width. This exploration can potentially unveil new insights and challenges for low-bit quantization of LLaMA3 and other forthcoming LLMs, especially in addressing performance degradation problems that suffer in LLM compression. Specifically, we comprehensively evaluate the 10 existing post-training quantization and LoRA-finetuning methods of LLaMA3 on 1-8 bits and diverse datasets to reveal LLaMA3's low-bit quantization performance. To uncover the capabilities of low-bit quantized MLLM, we assessed the performance of the LLaMA3-based LLaVA-Next-8B model under 2-4 ultra-low bits with post-training quantization methods. Our experimental results indicate that LLaMA3 still suffers non-negligent degradation in linguistic and visual contexts, particularly under ultra-low bit widths. This highlights the significant performance gap under low bit-width that needs to be bridged in future developments. We expect that this empirical study will prove valuable in advancing future models, driving LLMs and MLLMs to achieve higher accuracy at lower bit to enhance practicality.
Abstract（参考訳）: LLaMAファミリーは、最も強力なオープンソースのLarge Language Models (LLMs) の1つとなり、コンピュータビジョン (CV) や自然言語理解 (NLU) のタスクに広く応用されているマルチモーダル・Large Language Models (MLLMs) のLLMバックボーンとして人気がある。特に、LLaMA3モデルは、最近リリースされ、15T以上のデータに対する超大規模事前トレーニングにより、様々な種類の印象的なパフォーマンスを実現している。資源制限シナリオにおけるLLMに対する低ビット量子化の広範な適用を考えると、LLaMA3の低ビット幅への量子化時の能力について検討する。この探索により、LLaMA3や他のLLMの低ビット量子化の新たな洞察と課題、特にLLM圧縮に苦しむ性能劣化問題に対処できる可能性がある。具体的には,LLaMA3の1-8ビットおよび多種多様なデータセット上で,学習後量子化とLLaMA3のLoRAファインタニング法を総合的に評価し,LLaMA3の低ビット量子化性能を明らかにする。低ビット量子化MLLMの性能を明らかにするため,LLaMA3をベースとしたLLaVA-Next-8Bモデルの性能評価を行った。実験結果から,LLaMA3は言語的・視覚的文脈,特に超低ビット幅の領域において,相変わらず劣化することが明らかとなった。これは、将来の開発でブリッジする必要がある低ビット幅での大幅なパフォーマンスギャップを浮き彫りにする。この実証研究は,LLMとMLLMを低ビットで高い精度で実現し,実用性を高めることによって,将来のモデルを進める上で有益であることが期待されている。

関連論文リスト

Precision Where It Matters: A Novel Spike Aware Mixed-Precision Quantization Strategy for LLaMA-based Language Models [1.4999444543328293]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な機能を示した。本稿では,LLaMAアーキテクチャとその導関数に着目し,LLMの量子化について検討する。 LLaMAモデルに適した新しい混合精度量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-30T11:52:18Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization [5.7672452948056545]
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。 W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
論文参考訳（メタデータ） (2024-08-27T15:03:01Z)
Spectra: Surprising Effectiveness of Pretraining Ternary Language Models at Scale [16.865532646589987]
本稿では,従来の浮動小数点モデル(FloatLM)とその後量子化バージョン(QuantLM)の代替として,低ビット幅モデル,特に第三言語モデル(TriLM)の事前学習について検討する。我々は、FloatLMs、QuantLMs、TriLMsを含む複数のビット幅にまたがる最初のオープンなLLMスイートであるSpectra LLMスイートを、300Bトークンでトレーニングされた99Mから3.9Bのパラメータで紹介する。
論文参考訳（メタデータ） (2024-07-17T05:53:20Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
A Comprehensive Evaluation of Quantization Strategies for Large Language Models [42.03804933928227]
大規模言語モデル(LLM)におけるパラメータの数を増やすことで、ダウンストリームタスクのパフォーマンスが向上するが、計算とメモリコストが上昇する。モデルウェイトやアクティベーションに必要なビットを最小性能で削減する量子化技術が普及している。本稿では,知識とキャパシティ,(2)アライメント,(3)効率の3つの重要な次元からなる構造化評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-26T17:45:36Z)
Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs [3.450141240227484]
大規模言語モデル(LLM)の任意の精度量子化のための軽量な手法を提案する。我々のソリューションは、複数の異なるサイズのLCMをデプロイする際のコストを大幅に削減します。ビット幅の異なる全てのLLMは、最先端のモデル品質と推論スループットを示している。
論文参考訳（メタデータ） (2024-02-16T09:06:06Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Label Supervised LLaMA Finetuning [13.939718306233617]
本稿では,Large Language Models (LLM) のラベル管理型適応について紹介する。最終LLaMA層から潜在表現を抽出し、ラベル空間に投影し、クロスエントロピー損失を計算する。 LS-LLaMAは、複雑な技術や外部知識がなければ、LS-LLaMAの10倍の規模でLLMを著しく上回ります。
論文参考訳（メタデータ） (2023-10-02T13:53:03Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。