論文の概要: Edge Reliability Gap in Vision-Language Models: Quantifying Failure Modes of Compressed VLMs Under Visual Corruption
- arxiv url: http://arxiv.org/abs/2603.26769v1
- Date: Tue, 24 Mar 2026 10:14:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.589569
- Title: Edge Reliability Gap in Vision-Language Models: Quantifying Failure Modes of Compressed VLMs Under Visual Corruption
- Title(参考訳): 視覚言語モデルにおけるエッジ信頼性ギャップ:圧縮VLMの視覚的破壊時の故障モードの定量化
- Authors: Mehmet Kaan Erol,
- Abstract要約: エッジデプロイメントのための大規模視覚言語モデルの迅速な圧縮は、未解決の問題を引き起こす: コンパクトモデルは、単に頻繁にではなく、異なるフェールするのだろうか?
本研究では, VQAv2 および COCO キャプションから 4,000 個のサンプルに対して, 7-ビリオンパラメータ定量 VLM (Qwen2.5-VL-7B, 4-bit NF4) と500 万パラメータFP16モデル (SmolVLM2-500M) を比較した。
平均トークン確率を用いて3カテゴリーの誤り分類法(対象盲点, セマンティックドリフト, 先行バイアス)を診断の枠組みとして適用し, 信頼度校正を期待誤差(ECE)を用いて測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid compression of large vision-language models (VLMs) for edge deployment raises an underexplored question: do compact models fail differently, not merely more often? This study compares a 7-billion-parameter quantised VLM (Qwen2.5-VL-7B, 4-bit NF4) against a 500-million-parameter FP16 model (SmolVLM2-500M) across 4,000 samples from VQAv2 and COCO Captions. A three-category error taxonomy (Object Blindness, Semantic Drift, Prior Bias) is applied as a diagnostic framework. A text-only GPT-4o judge reveals Semantic Drift (B) as the dominant failure mode on VQAv2 and on COCO for Qwen, with a mixed Object Blindness / Semantic Drift profile for SmolVLM2 on COCO; Prior Bias (C) is present on VQAv2 but absent on COCO for both models. Confidence calibration is measured via Expected Calibration Error (ECE) using geometric mean token probability, compositional reasoning is probed with structured negation probes across four templates, and a blur robustness experiment completes the evaluation. For this model pair, the compact model exhibits a qualitatively distinct failure signature: a 12.5pp larger negation collapse (-33.2pp vs. -20.8pp, Wald 95% CI [8.2, 16.8]pp, p < 10^-8), driven almost entirely by COCO while the VQAv2 gap is not statistically significant (4.5pp, p=0.19). The most discriminating template is false_yn: SMOLVLM2-500M responds "Yes" (incorrectly claiming a depicted object is absent) on 100% of COCO trials vs. 14% for Q WEN 2.5-VL-7B. Asymmetric dataset-dependent miscalibration and a blur experiment with two controlled ablations complete the analysis. The fully reproducible pipeline is released for systematic safety auditing of compressed VLMs prior to edge deployment.
- Abstract(参考訳): エッジデプロイメントのための大規模視覚言語モデル(VLM)の高速圧縮は、未解決の問題を引き起こしている。
本研究では,VQAv2 および COCO キャプションから 4,000 個のサンプルに対して,7ビリオンパラメータ定量 VLM (Qwen2.5-VL-7B, 4-bit NF4) を500万パラメータ FP16 モデル (SmolVLM2-500M) と比較した。
診断の枠組みとして,3カテゴリーの誤り分類法(対象盲点,セマンティックドリフト,先行バイアス)を適用した。
テキストのみの GPT-4o 判事は、VQAv2 と Qwen の COCO では Semantic Drift (B) が支配的な障害モードであり、COCO では SmolVLM2 では Object Blindness / Semantic Drift プロファイルが混在していることを明らかにした。
信頼度校正は、幾何学的平均トークン確率を用いて期待校正誤差(ECE)を用いて測定され、構成推論は4つのテンプレートにまたがる構造化否定プローブを用いて探索され、曖昧なロバスト性実験により評価が完了する。
このモデル対に対して、コンパクトモデルは定性的に異なる故障符号を示す: 12.5ppより大きな否定崩壊(-33.2pp vs. -20.8pp, Wald 95% CI [8.2, 16.8]pp, p < 10^-8)、ほぼ完全にCOCOによって駆動されるが、VQAv2ギャップは統計的に有意ではない(4.5pp, p=0.19)。
SMOLVLM2-500M は COCO 試験の100%に対して、Q WEN 2.5-VL-7B では 14% で "Yes" 反応する。
非対称なデータセット依存の誤校正と、2つの制御されたアブレーションによる曖昧な実験が解析を完了した。
完全に再現可能なパイプラインは、エッジデプロイメントの前に圧縮されたVLMの系統的な安全性監査のためにリリースされている。
関連論文リスト
- The Alignment Tax: Response Homogenization in Aligned LLMs and Its Implications for Uncertainty Estimation [1.8345614451086532]
RLHF 対応言語モデルは TruthfulQA 上で応答均質化を示す。
40-79%の質問は、10のi.i.d.サンプルに対して単一のセマンティッククラスタを生成する。
論文 参考訳(メタデータ) (2026-03-25T09:35:15Z) - VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models [64.56065206447788]
ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。
VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
論文 参考訳(メタデータ) (2026-03-06T10:58:02Z) - The Devil in the Details: Emergent Misalignment, Format and Coherence in Open-Weights LLMs [0.0]
次世代オープンウェイトモデルがQwen-2.5ファミリーに類似した耐性を示すかどうかを評価する。
9つの現代的なオープンウェイトモデルにまたがって効果を再現する。
論文 参考訳(メタデータ) (2025-11-25T09:25:33Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement [100.85923086072204]
我々はThinkLite-VLを紹介した。これは最先端(SoTA)パフォーマンスを実現する視覚推論モデルのファミリーで、トレーニングサンプルの桁数を桁違いに減らしている。
我々はMonte Carlo Tree Search (MCTS) を用いて、各インスタンスの解決に必要な視覚言語モデル(VLM)の推論反復数を用いてサンプルの難易度を測定する。
ThinkLite-VL-7BとThinkLite-VL-72Bは、8つの視覚的推論ベンチマークにおいて、それぞれのベースモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-10T17:49:05Z) - Evaluating Large Language Models for Automated Clinical Abstraction in Pulmonary Embolism Registries: Performance Across Model Sizes, Versions, and Parameters [16.74673750576054]
データ品質を犠牲にすることなく,オープンソースの大規模言語モデル (LLM) がCTPEレポートから概念抽出を自動化できるかを検討した。
LLMは、PEレジストリの抽象化のためのスケーラブルで正確なソリューションを提供し、デュアルモデルレビューワークフローは、人間の監視を最小限にして、データ品質をさらに保護します。
論文 参考訳(メタデータ) (2025-03-26T21:38:06Z) - RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness [88.82621231987815]
RLAIF-Vは,MLLMを完全なオープンソースパラダイムで整列させる新しいフレームワークである。
RLAIF-Vは、高品質なフィードバックデータ生成を含む2つの観点から、オープンソースのMLLMを最大限に探求する。
RLAIF-Vは、自動評価と人的評価の両方で6つのベンチマーク実験を行い、モデルの信頼性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-27T14:37:01Z) - EqCo: Equivalent Rules for Self-supervised Contrastive Learning [81.45848885547754]
本稿では,InfoNCEをベースとしたコントラスト学習フレームワークにおいて,負のサンプル数と無関係に自己教師型学習を実現する手法を提案する。
InfoMaxの原理に着想を得て、負のペアの数に応じて、対照的な損失のマージン項を適応的にスケールする必要があることを指摘する。
論文 参考訳(メタデータ) (2020-10-05T11:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。