Fugu-MT 論文翻訳(概要): MBQ: Modality-Balanced Quantization for Large Vision-Language Models

論文の概要: MBQ: Modality-Balanced Quantization for Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2412.19509v1
Date: Fri, 27 Dec 2024 07:55:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:05.247931
Title: MBQ: Modality-Balanced Quantization for Large Vision-Language Models
Title（参考訳）: MBQ:大規模ビジョンランゲージモデルのためのModality-Balanced Quantization
Authors: Shiyao Li, Yingchun Hu, Xuefei Ning, Xihui Liu, Ke Hong, Xiaotao Jia, Xiuhong Li, Yaqi Yan, Pei Ran, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang,
Abstract要約: PTQ(Post-Training Quantization)は、メモリと計算オーバーヘッドを削減する効果的な手法である。既存のPTQ手法は主に大きな言語モデル(LLM)に焦点をあてるが、他のモダリティの相違は考慮しない。大規模な視覚言語モデルに対して,MBQ(Modality-Balanced Quantization)を提案する。
参考スコア（独自算出の注目度）: 20.018652727875367
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) have enabled a variety of real-world applications. The large parameter size of VLMs brings large memory and computation overhead which poses significant challenges for deployment. Post-Training Quantization (PTQ) is an effective technique to reduce the memory and computation overhead. Existing PTQ methods mainly focus on large language models (LLMs), without considering the differences across other modalities. In this paper, we discover that there is a significant difference in sensitivity between language and vision tokens in large VLMs. Therefore, treating tokens from different modalities equally, as in existing PTQ methods, may over-emphasize the insensitive modalities, leading to significant accuracy loss. To deal with the above issue, we propose a simple yet effective method, Modality-Balanced Quantization (MBQ), for large VLMs. Specifically, MBQ incorporates the different sensitivities across modalities during the calibration process to minimize the reconstruction loss for better quantization parameters. Extensive experiments show that MBQ can significantly improve task accuracy by up to 4.4% and 11.6% under W3 and W4A8 quantization for 7B to 70B VLMs, compared to SOTA baselines. Additionally, we implement a W3 GPU kernel that fuses the dequantization and GEMV operators, achieving a 1.4x speedup on LLaVA-onevision-7B on the RTX 4090. The code is available at https://github.com/thu-nics/MBQ.
Abstract（参考訳）: VLM(Vision-Language Models)は、様々な現実世界のアプリケーションを実現している。 VLMの大きなパラメータサイズは、大きなメモリと計算オーバーヘッドをもたらし、デプロイメントに重大な課題をもたらす。 PTQ(Post-Training Quantization)は、メモリと計算オーバーヘッドを削減する効果的な手法である。既存のPTQ手法は主に大きな言語モデル(LLM)に焦点をあてるが、他のモダリティの相違は考慮しない。本稿では,大規模なVLMにおいて,言語トークンと視覚トークンの感度に有意な差があることを明らかにする。したがって、既存のPTQ法と同様に異なるモダリティからのトークンを等しく扱うことは、不感なモダリティを過度に強調し、かなりの精度の損失をもたらす可能性がある。上記の問題に対処するため,大規模なVLMのためのシンプルで効果的な手法である MBQ を提案する。具体的には、MBQは、キャリブレーション過程において、量子化パラメータの改善のために再構成損失を最小限に抑えるために、モダリティの異なる感度を取り入れている。大規模な実験により、MBQはSOTAベースラインと比較して7Bから70B VLMのW3およびW4A8量子化において、タスク精度を最大4.4%、11.6%向上させることができることが示された。さらに, RTX 4090上でのLLaVA-onevision-7B上で, 1.4倍の高速化を実現したW3 GPUカーネルを実装した。コードはhttps://github.com/thu-nics/MBQ.comで入手できる。

関連論文リスト

SPEED-Q: Staged Processing with Enhanced Distillation towards Efficient Low-bit On-device VLM Quantization [6.872509247180761]
VLM(Vision-Language Models)は、低レイテンシとプライバシ保護のインテリジェントなアプリケーションを実現するために不可欠である。 VLMモデルの低ビット量化のための新しいフレームワークであるSPEED-Qを提案する。 Speedy-Qは2ビット設定で既存の量子化手法よりも最大6倍高い精度を達成する。
論文参考訳（メタデータ） (2025-11-12T02:47:24Z)
Bi-VLM: Pushing Ultra-Low Precision Post-Training Quantization Boundaries in Vision-Language Models [41.569153064451385]
本稿では,ガウス量子論に基づくモデル重みを非一様に分離するBi-VLMを提案する。 VLMの言語モデルでは、視覚的質問応答タスクにおいて、私たちのBi-VLMは、SOTAよりも3%-47%優れています。 VLM全体では、私たちのBi-VLMはSOTAよりも4%-45%優れています。
論文参考訳（メタデータ） (2025-09-23T07:55:48Z)
VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.891793681316992]
ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。 PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文参考訳（メタデータ） (2025-08-05T11:57:03Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
MQuant: Unleashing the Inference Potential of Multimodal Large Language Models via Full Static Quantization [15.01214559812713]
MQuantは、マルチモーダル大規模言語モデル(MLLM)の課題に取り組むために設計されたポストトレーニング量子化フレームワークである。 5つのメインストリームMLLM(Qwen-VL, Mini-V, CogVLM2)では、W4A8のMQuantがほぼ浮動小数点精度(1%劣化)を実現し、推論遅延を最大30%削減する。
論文参考訳（メタデータ） (2025-02-01T13:08:02Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [57.38479416921167]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。 LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文参考訳（メタデータ） (2024-09-26T08:31:27Z)
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。 VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文参考訳（メタデータ） (2024-09-25T16:25:45Z)
LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文参考訳（メタデータ） (2024-07-14T00:23:51Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models [15.461748851931588]
outlier-aware weight Quantization (OWQ)メソッドは、低精度表現によって大きな言語モデルのフットプリントを最小化する。 OWQは、量子化に敏感な構造的重みの小さなサブセットを優先順位付けし、それらを高精度に保存し、残りの高密度重みに高度に調整された量子化を適用する。 OWQを用いた3.1ビットモデルは、OPTQによって最適化された4ビットモデルと互換性があることを示した。
論文参考訳（メタデータ） (2023-06-04T06:33:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。