論文の概要: Towards Understanding Best Practices for Quantization of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.15287v1
- Date: Wed, 21 Jan 2026 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.512595
- Title: Towards Understanding Best Practices for Quantization of Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルの量子化のためのベストプラクティスの理解に向けて
- Authors: Gautom Das, Vincent La, Ethan Lau, Abhinav Shrivastava, Matthew Gwilliam,
- Abstract要約: 大きな言語モデル(LLM)は、様々なタスクに対して印象的な結果をもたらす。
これらのシステムのメモリとレイテンシの両方を減らすために、実践者は学習したパラメータを半精度で定量化する。
本稿では,最先端のGPTQやAWQなど,さまざまな量子化手法をマルチモーダルパイプラインに適用する方法について検討する。
- 参考スコア(独自算出の注目度): 42.75375241956508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) deliver impressive results for a variety of tasks, but state-of-the-art systems require fast GPUs with large amounts of memory. To reduce both the memory and latency of these systems, practitioners quantize their learned parameters, typically at half precision. A growing body of research focuses on preserving the model performance with more aggressive bit widths, and some work has been done to apply these strategies to other models, like vision transformers. In our study we investigate how a variety of quantization methods, including state-of-the-art GPTQ and AWQ, can be applied effectively to multimodal pipelines comprised of vision models, language models, and their connectors. We address how performance on captioning, retrieval, and question answering can be affected by bit width, quantization method, and which portion of the pipeline the quantization is used for. Results reveal that ViT and LLM exhibit comparable importance in model performance, despite significant differences in parameter size, and that lower-bit quantization of the LLM achieves high accuracy at reduced bits per weight (bpw). These findings provide practical insights for efficient deployment of MLLMs and highlight the value of exploration for understanding component sensitivities in multimodal models. Our code is available at https://github.com/gautomdas/mmq.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なタスクに対して印象的な結果をもたらすが、最先端システムは大量のメモリを持つ高速GPUを必要とする。
これらのシステムのメモリとレイテンシの両方を減らすために、実践者は学習したパラメータを半精度で定量化する。
成長する研究機関は、より攻撃的なビット幅でモデルパフォーマンスを維持することに焦点を当てており、視覚変換器のような他のモデルにこれらの戦略を適用するためにいくつかの研究がなされている。
本研究では、現状のGPTQやAWQを含む様々な量子化手法を、視覚モデル、言語モデル、コネクターからなるマルチモーダルパイプラインに効果的に適用する方法について検討した。
我々は,キャプション,検索,質問応答のパフォーマンスがビット幅,量子化法,量子化のどの部分を使うかによってどのように影響を受けるかに対処する。
その結果、パラメータサイズが著しく異なるにもかかわらず、ViTとLLMはモデル性能に匹敵する重要性を示し、LLMの低ビット量子化は重量あたりの削減ビット(bpw)で高い精度を達成することがわかった。
これらの結果は,MLLMの効率的な展開のための実践的な洞察を与え,マルチモーダルモデルにおけるコンポーネントの感度を理解するための探索の価値を強調している。
私たちのコードはhttps://github.com/gautomdas/mmq.comから入手可能です。
関連論文リスト
- ShishuLM: Lightweight Language Model with Hybrid Decoder-MLP Architecture and Paired Weight Sharing [0.5565728870245015]
本稿では,パラメータカウントとキーバリュー(KV)キャッシュ要求の両方を削減できる,効率的な言語モデルアーキテクチャであるShishuLMを紹介した。
以上の結果から,ShshuLMは最大25%のメモリ要求を削減し,トレーニングと推論の両方で最大40%のレイテンシ向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-13T04:04:54Z) - Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。
MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。
さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文 参考訳(メタデータ) (2024-06-25T17:55:11Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Graph Neural Prompting with Large Language Models [32.97391910476073]
Graph Neural Prompting (GNP)は、知識グラフから有益な知識を学ぶために、事前訓練された言語モデルを支援するための新しいプラグアンドプレイ方式である。
複数のデータセットに対する大規模な実験は、常識的および生物医学的推論タスクにおいて、GNPの優位性を示す。
論文 参考訳(メタデータ) (2023-09-27T06:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。