論文の概要: Evaluating the Impact of Post-Training Quantization on Reliable VQA with Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2602.13289v1
- Date: Sun, 08 Feb 2026 20:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.817743
- Title: Evaluating the Impact of Post-Training Quantization on Reliable VQA with Multimodal LLMs
- Title(参考訳): マルチモーダルLDMを用いた信頼性VQAに及ぼす後評価量子化の影響評価
- Authors: Paul Jonas Kurz, Tobias Jan Wieczorek, Mohamed A. Abdelsalam, Rahaf Aljundi, Marcus Rohrbach,
- Abstract要約: 学習後量子化(PTQ)圧縮が視覚質問応答(VQA)の精度と信頼性に与える影響について検討する。
我々は、量子化されたマルチモーダル設定に対してセレクタ信頼度推定器を適用し、そのロバスト性を様々な量子化レベルとアウト・オブ・ディストリビューション(OOD)シナリオでテストする。
- 参考スコア(独自算出の注目度): 12.376901102913417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLM) are increasingly deployed in domains where both reliability and efficiency are critical. However, current models remain overconfident, producing highly certain but incorrect answers. At the same time, their large size limits deployment on edge devices, necessitating compression. We study the intersection of these two challenges by analyzing how Post-Training Quantization (PTQ) compression affects both accuracy and reliability in Visual Question Answering (VQA). We evaluate two MLLMs, Qwen2-VL-7B and Idefics3-8B, quantized with data-free (HQQ) and data-aware (MBQ) methods across multiple bit widths. To counteract the reduction in reliability caused by quantization, we adapt the Selector confidence estimator for quantized multimodal settings and test its robustness across various quantization levels and out-of-distribution (OOD) scenarios. We find that PTQ degrades both accuracy and reliability. Data-aware methods soften the effect thereof. The Selector substantially mitigates the reliability impact. The combination of int4 MBQ and the Selector achieves the best efficiency-reliability trade-off, closing in on uncompressed performance at approx. 75% less memory demand. Overall, we present the first systematic study linking quantization and reliability in multimodal settings.
- Abstract(参考訳): MLLM(Multimodal Large Language Model)は、信頼性と効率性の両方が重要である領域に、ますます多くデプロイされている。
しかし、現在のモデルは自信過剰なままであり、非常に確実だが誤った答えを生み出している。
同時に、その大きなサイズはエッジデバイスへのデプロイメントを制限し、圧縮を必要としている。
評価後量子化(PTQ)圧縮が視覚質問応答(VQA)の精度と信頼性にどのように影響するかを分析することによって,これらの2つの課題の交わりについて検討する。
データフリー(HQQ)とデータアウェア(MBQ)の2つのMLLM、Qwen2-VL-7BとIdefics3-8Bを評価した。
量子化による信頼性の低下に対処するため,量子化されたマルチモーダル設定に対してセレクタ信頼度推定器を適用し,様々な量子化レベルとアウト・オブ・ディストリビューション(OOD)シナリオでそのロバスト性をテストする。
PTQは精度と信頼性の両方を劣化させる。
データ認識方法によりその効果が軟化する。
セレクタは信頼性への影響を著しく軽減する。
int4 MBQとSelectorの組み合わせは、最適の効率と信頼性のトレードオフを達成し、アポックスでの非圧縮性能を閉鎖する。
メモリ需要は75%減った。
全体として、マルチモーダル設定における量子化と信頼性をリンクする最初の体系的な研究を示す。
関連論文リスト
- Can Large Language Models Still Explain Themselves? Investigating the Impact of Quantization on Self-Explanations [18.22236071202241]
量子化は通常、自己説明(SE)と忠実の両方において緩やかに低下する。
タスクの正確性、SEの品質、忠実性に一貫して優れる量子化技術は存在しない。
論文 参考訳(メタデータ) (2026-01-01T09:50:01Z) - Enhancing Trustworthiness with Mixed Precision: Benchmarks, Opportunities, and Challenges [12.438306093697]
大規模言語モデル(LLM)は、様々なタスクで有望なパフォーマンスを示している。
LLMの自己回帰デコーディングプロセスは、既存のAIハードウェアへの効率的なデプロイに重大な課題をもたらす。
論文 参考訳(メタデータ) (2025-11-27T14:17:43Z) - SPEED-Q: Staged Processing with Enhanced Distillation towards Efficient Low-bit On-device VLM Quantization [6.872509247180761]
VLM(Vision-Language Models)は、低レイテンシとプライバシ保護のインテリジェントなアプリケーションを実現するために不可欠である。
VLMモデルの低ビット量化のための新しいフレームワークであるSPEED-Qを提案する。
Speedy-Qは2ビット設定で既存の量子化手法よりも最大6倍高い精度を達成する。
論文 参考訳(メタデータ) (2025-11-12T02:47:24Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - AQUA-LLM: Evaluating Accuracy, Quantization, and Adversarial Robustness Trade-offs in LLMs for Cybersecurity Question Answering [8.946002046630845]
大規模言語モデル(LLM)は近年,サイバーセキュリティ質問応答(QA)の強力な可能性を示している。
それらの膨大な計算要求は、リソース制約のあるエッジデバイスへの展開に重大な課題をもたらす。
AQUA-LLMは、4つの異なる構成で複数の最先端の小型LCMをベンチマークするために設計された評価フレームワークである。
論文 参考訳(メタデータ) (2025-09-16T20:19:24Z) - Quantum Federated Learning for Multimodal Data: A Modality-Agnostic Approach [1.1008520905907015]
分散プライバシ保護量子機械学習(QML)モデルを量子プロセッサ(クライアント)間でトレーニング可能にするために、量子フェデレーション学習(QFL)が導入されている。
量子エンタングルメントを用いた中間核融合によるQFL設定に適した新しいマルチモーダルアプローチを初めて提示する。
我々は、未学習の量子回路を分離し、破損状態のない安定したトレーニングを確実にする、ミス・モダリティ・アグノスティック(MMA)機構を導入する。
論文 参考訳(メタデータ) (2025-07-10T23:33:58Z) - Calibrating Uncertainty Quantification of Multi-Modal LLMs using Grounding [48.92310906093414]
マルチモーダル大言語モデル(LLM)に適した不確実性定量化(UQ)の校正手法を提案する。
マルチモーダルモデルのキャリブレーションを改善するために,自己整合性に加えてクロスモーダル整合性を活用する。
医療質問応答(Slake)や視覚質問応答(VQAv2)といった複数のマルチモーダルタスクに対して,LLaVA-MedやLLaVAといったマルチモーダルモデルを考慮したアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-30T19:19:21Z) - Uncertainty Quantification for LLMs through Minimum Bayes Risk: Bridging Confidence and Consistency [66.96286531087549]
大規模言語モデル(LLM)のための不確実性定量化(UQ)手法は、様々なアプローチを含んでいる。
本稿では,モデル信頼度と出力整合性を統合する新しい手法を提案する。
我々は,質問応答,抽象要約,機械翻訳など,様々なタスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-02-07T14:30:12Z) - Multi-QuAD: Multi-Level Quality-Adaptive Dynamic Network for Reliable Multimodal Classification [57.08108545219043]
既存の信頼性の高いマルチモーダル分類手法では、データ品質のロバストな推定ができない。
textitMulti-level Quality-Adaptive Dynamic multimodal network (Multi-QuAD) と呼ばれる信頼性の高い分類のための新しいフレームワークを提案する。
4つのデータセットで行った実験により、Multi-QuADは分類性能と信頼性において最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-19T03:26:51Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。