論文の概要: LUQ: Layerwise Ultra-Low Bit Quantization for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.23729v1
- Date: Sun, 28 Sep 2025 08:20:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.405501
- Title: LUQ: Layerwise Ultra-Low Bit Quantization for Multimodal Large Language Models
- Title(参考訳): LUQ:マルチモーダル大言語モデルのための層状超低ビット量子化
- Authors: Shubhang Bhatnagar, Andy Xu, Kar-Han Tan, Narendra Ahuja,
- Abstract要約: マルチモーダルLLMの超低ビット(4ビット)量子化に関する最初の研究について述べる。
解析の結果,多モードトークンと中間層アクティベーションは,テキストトークンと比較して,統計的分散とエントロピーが著しく高いことがわかった。
我々はMLLM量子化の新しい戦略であるLUQ:Layerwise Ultra-Low Bit Quantizationを提案する。
- 参考スコア(独自算出の注目度): 8.912472985242575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) with multimodal capabilities have revolutionized vision-language tasks, but their deployment often requires huge memory and computational resources. While post-training quantization (PTQ) has successfully compressed language models to as low as 1-bit precision without significant performance loss, its effectiveness for multimodal LLMs (MLLMs) remains relatively unexplored. In this paper, we present the first study on ultra-low bit (<4-bit) quantization for multimodal LLMs. Our analysis reveals that multimodal tokens and intermediate layer activations produced by them exhibit significantly higher statistical variance and entropy compared to text tokens, making them less tolerant to ultra-low bit quantization. However, the activation distributions of multimodal tokens varies significantly over different layers, with some layers having lower entropy activation distributions. We empirically show that such layers in these models can better tolerate ultra-low bit quantization. Building on these insights, we propose a novel strategy for MLLM quantization, LUQ: Layerwise Ultra-Low Bit Quantization, which selectively applies ultra-low bit quantization to layers that are more resilient to it. Additionally, we also show that using a mix of multimodal tokens (image and text) for PTQ boosts VQA performance in the ultra-low bit regime. We evaluate our method on LLaVA-1.5 and Qwen-2.5-VL across 9 popular VQA benchmarks. The resulting LUQ models use 40% and 31% less memory than their 4-bit counterparts, respectively, while exhibiting a performance degradation of less than 10% on the MME benchmark.
- Abstract(参考訳): マルチモーダル機能を持つ大規模言語モデル(LLM)は、視覚言語タスクに革命をもたらしたが、その展開には大きなメモリと計算資源を必要とすることが多い。
後学習量子化(PTQ)は、性能損失を伴わずに1ビットの精度で言語モデルを圧縮することに成功しているが、マルチモーダルLLM(MLLM)の有効性はいまだに未解明である。
本稿では,マルチモーダルLDMにおける超低ビット(<4-bit)量子化に関する最初の研究について述べる。
解析の結果,多モードトークンと中間層アクティベーションは,テキストトークンに比べて統計的分散やエントロピーが著しく高く,超低ビット量子化に対する耐性が低いことが明らかとなった。
しかし、多モードトークンの活性化分布は異なる層で大きく異なり、いくつかの層はエントロピー活性化分布が低い。
これらのモデルにおけるそのような層は、超低ビット量子化を許容できることを実証的に示す。
これらの知見に基づいて、我々はMLLM量子化の新しい戦略であるLUQ:Layerwise Ultra-Low Bit Quantizationを提案し、よりレジリエントな層に超低ビット量子化を選択的に適用する。
さらに、PTQにマルチモーダルトークン(画像とテキスト)を混在させることで、超低ビット方式でのVQA性能が向上することを示す。
9つのVQAベンチマークでLLaVA-1.5およびQwen-2.5-VLの評価を行った。
結果のLUQモデルは、それぞれ4ビットモデルよりも40%と31%少ないメモリを使用し、MMEベンチマークでは10%未満のパフォーマンス低下を示した。
関連論文リスト
- VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.891793681316992]
ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。
PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。
本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T11:57:03Z) - Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - MBQ: Modality-Balanced Quantization for Large Vision-Language Models [20.018652727875367]
PTQ(Post-Training Quantization)は、メモリと計算オーバーヘッドを削減する効果的な手法である。
既存のPTQ手法は主に大きな言語モデル(LLM)に焦点をあてるが、他のモダリティの相違は考慮しない。
大規模な視覚言語モデルに対して,MBQ(Modality-Balanced Quantization)を提案する。
論文 参考訳(メタデータ) (2024-12-27T07:55:36Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Layer-Wise Quantization: A Pragmatic and Effective Method for Quantizing LLMs Beyond Integer Bit-Levels [20.706177044867797]
本稿では,大規模言語モデル(LLM)の異なる層を異なるビットレベルで定量化する,シンプルなメタ量子化手法を提案する。
具体的には、最も重要な層を高いビット精度に量子化し、低いビットに対して重要でない層を定量化する。
論文 参考訳(メタデータ) (2024-06-25T09:37:15Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。