論文の概要: Beyond Standard Benchmarks: A Systematic Audit of Vision-Language Model's Robustness to Natural Semantic Variation Across Diverse Tasks
- arxiv url: http://arxiv.org/abs/2604.04473v1
- Date: Mon, 06 Apr 2026 06:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.123698
- Title: Beyond Standard Benchmarks: A Systematic Audit of Vision-Language Model's Robustness to Natural Semantic Variation Across Diverse Tasks
- Title(参考訳): 標準ベンチマークを超えて:様々なタスクにおける視覚言語モデルの自然意味変化に対するロバスト性に関する体系的な監査
- Authors: Jia Chengyu, AprilPyone MaungMaung, Huy H. Nguyen, Jinyin Chen, Isao Echizen,
- Abstract要約: 本稿では,視覚言語モデル(VLM)の自然なシナリオ下での体系的評価フレームワークを提案する。
ゼロショット画像分類,セマンティックセグメンテーション,視覚的質問応答において,選択したVLMの自然な対向性能を測定した。
解析の結果,頑健なCLIPモデルでは自然の敵対的脆弱性が増幅され,CLIPモデルでは自然言語による敵対的事例のパフォーマンスが著しく低下することが判明した。
- 参考スコア(独自算出の注目度): 11.064940886724257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) trained on web-scale image-text pairs have enabled impressive zero-shot transfer across a diverse range of visual tasks. However, comprehensive and independent evaluation beyond standard benchmarks is essential to understand their robustness, limitations, and real-world applicability. This paper presents a systematic evaluation framework for VLMs under natural adversarial scenarios for diverse downstream tasks, which has been overlooked in previous evaluation works. We evaluate a wide range of VLMs (CLIP, robust CLIP, BLIP2, and SigLIP2) on curated adversarial datasets (typographic attacks, ImageNet-A, and natural language-induced adversarial examples). We measure the natural adversarial performance of selected VLMs for zero-shot image classification, semantic segmentation, and visual question answering. Our analysis reveals that robust CLIP models can amplify natural adversarial vulnerabilities, and CLIP models significantly reduce performance for natural language-induced adversarial examples. Additionally, we provide interpretable analyses to identify failure modes. We hope our findings inspire future research in robust and fair multimodal pattern recognition.
- Abstract(参考訳): Webスケールの画像テキストペアで訓練された視覚言語モデル(VLM)の最近の進歩は、様々な視覚的タスクにわたって印象的なゼロショット転送を可能にしている。
しかし、標準ベンチマークを超えて総合的かつ独立した評価は、その堅牢性、制限、実世界の適用性を理解するために不可欠である。
本稿では,従来の評価研究で見過ごされてきた様々な下流タスクの自然な逆シナリオ下でのVLMの系統的評価フレームワークを提案する。
VLM(CLIP, 堅牢なCLIP, BLIP2, SigLIP2)を, 逆行性データセット(タイポグラフィーアタック, ImageNet-A, 自然言語による逆行性サンプル)で評価した。
ゼロショット画像分類,セマンティックセグメンテーション,視覚的質問応答において,選択したVLMの自然な対向性能を測定した。
分析の結果,頑健なCLIPモデルでは自然の敵対的脆弱性が増幅され,CLIPモデルでは自然言語による敵対的事例のパフォーマンスが著しく低下することが判明した。
さらに、障害モードを特定するための解釈可能な分析も提供する。
我々はこの発見が、堅牢で公正なマルチモーダルパターン認識に将来の研究を刺激することを期待している。
関連論文リスト
- Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework [20.533408486872702]
大規模言語モデル(LLM)は、特にLVLM(Large Vision-Language Models)の開発において、マルチモーダル学習の急速な進歩を促している。
既存のLVLMトレーニングパラダイムはLLMコンポーネントに過度に依存しており、言語バイアスと言語感受性という2つの重要な堅牢性課題を生み出している。
複数ラウンドの反実的推論を行うことで視覚コントラストデコーディングを拡張する新しい自己批判推論(SCI)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-08T14:46:19Z) - Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs [80.03370593724422]
Out-of-Distribution (OOD) は未知のクラスからサンプルを識別する。
現在の手法では、否定的なテキストとIDラベルを比較するなど、OOD検出中にモード内距離を組み込むことが多い。
テキストおよび視覚的視点から一貫したモーダル距離拡張を体系的に利用するフレームワークであるInterNegを提案する。
論文 参考訳(メタデータ) (2026-03-03T05:44:47Z) - PCRI: Measuring Context Robustness in Multimodal Models for Enterprise Applications [34.58930119882675]
MLLMのロバスト性を定量化する最初の体系的かつ解釈可能なスコアである textbfPatch Context Robustness Index (PCRI) を導入する。
InternVL2-26B や Qwen2VL-72B など,タスク間の一貫したロバスト性を示すモデルはほとんどありません。
論文 参考訳(メタデータ) (2025-09-28T13:39:57Z) - Evaluating Robustness of Vision-Language Models Under Noisy Conditions [0.0176290054713643]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。
制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-15T22:31:21Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。