論文の概要: VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.06148v1
- Date: Fri, 06 Mar 2026 10:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.523889
- Title: VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models
- Title(参考訳): VLM-RobustBench:視覚言語モデルのロバスト性に関する総合ベンチマーク
- Authors: Rohit Saxena, Alessandro Suglia, Pasquale Minervini,
- Abstract要約: ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。
VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
- 参考スコア(独自算出の注目度): 64.56065206447788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) achieve strong performance on standard, high-quality datasets, but we still do not fully understand how they perform under real-world image distortions. We present VLM-RobustBench, a benchmark spanning 49 augmentation types across noise, blur, weather, digital, and geometric perturbations, evaluated under graded severities (low/mid/high) and binary transforms, yielding 133 corrupted settings. We evaluate VLMs from four families (Qwen, InternVL, Molmo, Gemma) on two complementary benchmarks: MMBench (visually grounded) and MMMU-Pro (reasoning-oriented). Our results reveal that visual severity is a weak predictor of difficulty: low-severity spatial perturbations often degrade performance more than visually severe photometric corruptions. In particular, low-severity glass_blur reduces MMBench accuracy by about 8 pp on average across models, while the largest drops arise from resampling and geometric distortions (e.g., upsample, elastic_transform), reaching up to 34 pp. Overall, our findings suggest current VLMs are semantically strong but spatially fragile, motivating the definition of novel robustness evaluation protocols and training regimes that emphasize resampling and geometric invariances.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は,標準的な高品質なデータセットに対して高い性能を達成するが,実世界の画像歪み下での処理方法を完全には理解していない。
VLM-RobustBenchはノイズ, ブラー, 天気, ディジタル, 幾何学的摂動にまたがる49種類の拡張型にまたがるベンチマークである。
MMBench(視覚的接地)とMMMU-Pro(推論指向)の2つの相補的ベンチマークを用いて,Qwen, InternVL, Molmo, Gemmaの4種類のVLMを評価した。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
特に、低重度ガラス_blurはMMBenchの精度を平均8pp程度低下させ、最大の落下は再サンプリングと幾何歪み(例えば、アップサンプル、弾性変換)から発生し、最大34ppに達する。
全体として,現在のVLMは意味的に強いが空間的に脆弱であり,再サンプリングや幾何学的不変性を重視した新しいロバストネス評価プロトコルやトレーニング体制の定義を動機としている。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - DIQ-H: Evaluating Hallucination Persistence in VLMs Under Temporal Visual Degradation [0.7874708385247353]
時間列の動的視覚劣化下でのVLMロバスト性を評価するための最初のベンチマークであるDIQ-Hを紹介する。
DIQ-Hは、モーションボケ、センサノイズ、圧縮アーティファクトなどの物理ベースの汚職を適用し、幻覚の持続性、エラー回復、時間的一貫性を測定する。
拡張性のあるアノテーションを実現するために,疑似地下構造を生成するUncertainty-Guided Iterative Refinement (UIR)を提案する。
論文 参考訳(メタデータ) (2025-12-03T17:22:29Z) - Questioning the Stability of Visual Question Answering [11.848401203578456]
ビジュアル言語モデル(VLM)は目覚ましい進歩を遂げているが、その信頼性は小さく、意味を保った入力変更ではよく理解されていない。
視覚的・テキスト的摂動に配慮したVLMロバスト性の最初の大規模・系統的研究について述べる。
最新のシステム(例えば、GPT-4o、Gemini 2.0 Flash)は、少数のピクセルや無害なリフレージングでしばしば失敗することを示す。
論文 参考訳(メタデータ) (2025-11-14T12:05:05Z) - Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた
Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。
視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文 参考訳(メタデータ) (2025-09-28T10:19:59Z) - Evaluating Robustness of Vision-Language Models Under Noisy Conditions [0.0176290054713643]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。
制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-15T22:31:21Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Improving robustness against common corruptions with frequency biased
models [112.65717928060195]
目に見えない画像の腐敗は 驚くほど大きなパフォーマンス低下を引き起こします
画像の破損タイプは周波数スペクトルで異なる特性を持ち、ターゲットタイプのデータ拡張の恩恵を受けます。
畳み込み特徴マップの総変動(TV)を最小限に抑え、高周波堅牢性を高める新しい正規化方式を提案する。
論文 参考訳(メタデータ) (2021-03-30T10:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。