論文の概要: Does Visual Token Pruning Improve Calibration? An Empirical Study on Confidence in MLLMs
- arxiv url: http://arxiv.org/abs/2604.12035v1
- Date: Mon, 13 Apr 2026 20:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.111775
- Title: Does Visual Token Pruning Improve Calibration? An Empirical Study on Confidence in MLLMs
- Title(参考訳): 視覚的トーケンプルーニングは校正を改善するか? : MLLMの信頼性に関する実証的研究
- Authors: Kaizhen Tan,
- Abstract要約: 視覚的トークンプルーニングがモデルキャリブレーションにどのように影響するか,すなわち,信頼度が実際の正しさと一致しているかを検討する。
以上の結果から,プルーニングは単に効率の面での信頼性を損なうものではないことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual token pruning is a widely used strategy for efficient inference in multimodal large language models (MLLMs), but existing work mainly evaluates it with task accuracy. In this paper, we study how visual token pruning affects model calibration, that is, whether predicted confidence matches actual correctness. Using LLaVA-1.5-7B on POPE and ScienceQA-IMG, we evaluate Expected Calibration Error (ECE), Brier score, and AURC under several pruning strategies, including SCOPE with different saliency weights, saliency-only pruning, FastV, and random pruning, across multiple token budgets. Our results show that pruning does not simply trade reliability for efficiency. On POPE, a pure-coverage setting in SCOPE achieves substantially lower ECE than the full unpruned model while maintaining similar accuracy. An internal alpha-sweep further shows a consistent trend: reducing the saliency weight improves calibration at all tested token budgets, while accuracy changes only slightly. In contrast, saliency-based pruning leads to worse calibration, and real FastV causes severe performance degradation in our setting. On ScienceQA-IMG, pruning also reduces ECE, with accuracy remaining stable or slightly improving. We additionally study the gap power exponent in coverage-based selection and find that its default setting is not always optimal. Overall, our results suggest that visual token pruning should be evaluated not only by accuracy, but also by confidence quality, especially for multimodal systems that need reliable decisions.
- Abstract(参考訳): 視覚トークンプルーニングはマルチモーダル大言語モデル(MLLM)における効率的な推論手法として広く用いられているが、既存の研究は主にタスク精度で評価されている。
本稿では,視覚的トークンプルーニングがモデルキャリブレーションに与える影響,すなわち,予測された信頼度が実際の正しさに合致するかどうかについて検討する。
POPEとScienceQA-IMGのLLaVA-1.5-7Bを用いて,複数のトークン予算にまたがって,サリエンシのみのSCOPE,サリエンシのみのプルーニング,FastV,ランダムプルーニングなど,いくつかのプルーニング戦略の下でキャリブレーションエラー(ECE),ブライアスコア,AURCを評価した。
以上の結果から,プルーニングは単に効率の面での信頼性を損なうものではないことが示唆された。
POPEでは、SCOPEの純被覆設定は、同じ精度を維持しながら、完全な未切断モデルよりもかなり低いECEを達成する。
内部のアルファスイープはさらに一貫した傾向を示しており、サリエンシ重量を減らすことで、テストされた全てのトークン予算におけるキャリブレーションが向上する一方、精度はわずかに変化している。
対照的に、サリエンシベースのプルーニングはキャリブレーションを悪化させ、実際のFastVは我々の設定で深刻な性能劣化を引き起こす。
ScienceQA-IMGでは、プルーニングはECEを低減し、精度は安定かわずかに改善されている。
さらに、カバレッジベース選択におけるギャップパワー指数について検討し、デフォルト設定が常に最適であるとは限らないことを確認する。
以上の結果から,視覚的トークンプルーニングは精度だけでなく,信頼性の高い品質,特に信頼性の高い意思決定を必要とするマルチモーダルシステムにおいても評価されるべきであることが示唆された。
関連論文リスト
- Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards [71.19033708090389]
Reinforcement Learning from Verifiable Rewards (RLVR) は、大きな言語モデル(LLM)推論を著しく強化するが、校正劣化に苦しむ。
推論と校正の目的を体系的に分離するフレームワークであるDCPOを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:47:59Z) - Can Less Precise Be More Reliable? A Systematic Evaluation of Quantization's Impact on CLIP Beyond Accuracy [38.91808019403202]
量子化がCLIPの性能に与える影響を精度を超えて評価する。
量子化は、一般に信頼できない事前学習モデルの校正を一貫して改善することを示す。
我々は、ゼロショット精度、キャリブレーション、OODロバスト性において同時ゲインをもたらす特定の量子化対応トレーニング(QAT)法を同定する。
論文 参考訳(メタデータ) (2025-09-25T13:54:34Z) - NIRVANA: Structured pruning reimagined for large language models compression [50.651730342011014]
直近のゼロショット保存精度と頑健な微調整のバランスをとるために, NIRVANAを導入した。
構造化プルーニングによって引き起こされる固有の課題にさらに対処するため、NIRVANAは層やモジュール間の適応的な空間割当機構を取り入れている。
Llama3, Qwen, T5モデルで行った実験では、NIRVANAは等価な空間制約の下で既存の構造化プルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-17T17:59:00Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。