論文の概要: Analysing the Robustness of Vision-Language-Models to Common Corruptions
- arxiv url: http://arxiv.org/abs/2504.13690v2
- Date: Mon, 21 Apr 2025 17:07:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 08:46:27.189174
- Title: Analysing the Robustness of Vision-Language-Models to Common Corruptions
- Title(参考訳): ビジョンランゲージモデルの共通破壊に対するロバスト性の解析
- Authors: Muhammad Usama, Syeda Aishah Asim, Syed Bilal Ali, Syed Talal Wasim, Umair Bin Mansoor,
- Abstract要約: 視覚言語モデル(VLM)は、視覚的およびテキスト的コンテンツに対する理解と推論の優れた能力を実証している。
我々は、ImageNet-Cベンチマークから、19種類の汚職タイプにまたがるVLMのロバスト性について、初めて包括的解析を行った。
シーンテキスト理解とオブジェクトベース推論にどのように影響するかを評価するために,2つの新しいベンチマークであるTextVQA-CとGQA-Cを導入する。
- 参考スコア(独自算出の注目度): 2.9459935333120972
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) have demonstrated impressive capabilities in understanding and reasoning about visual and textual content. However, their robustness to common image corruptions remains under-explored. In this work, we present the first comprehensive analysis of VLM robustness across 19 corruption types from the ImageNet-C benchmark, spanning four categories: noise, blur, weather, and digital distortions. We introduce two new benchmarks, TextVQA-C and GQA-C, to systematically evaluate how corruptions affect scene text understanding and object-based reasoning, respectively. Our analysis reveals that transformer-based VLMs exhibit distinct vulnerability patterns across tasks: text recognition deteriorates most severely under blur and snow corruptions, while object reasoning shows higher sensitivity to corruptions such as frost and impulse noise. We connect these observations to the frequency-domain characteristics of different corruptions, revealing how transformers' inherent bias toward low-frequency processing explains their differential robustness patterns. Our findings provide valuable insights for developing more corruption-robust vision-language models for real-world applications.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚的およびテキスト的コンテンツに対する理解と推論において、印象的な能力を示した。
しかし、一般的な画像の腐敗に対する頑健さはいまだ解明されていない。
本研究では、ImageNet-Cベンチマークから、VLMの強靭性について、ノイズ、ぼかし、天気、デジタル歪みの4つのカテゴリにまたがる、19種類の汚職タイプを網羅的に分析した。
本研究では,2つの新しいベンチマークであるTextVQA-CとGQA-Cを導入し,汚職がシーンテキスト理解とオブジェクトベースの推論にどのように影響するかを体系的に評価する。
テキスト認識は, ぼかしや雪の汚損により著しく劣化する一方, 物体推論はフロストやインパルスノイズなどの汚損に対して高い感度を示す。
これらの観察を、異なる汚職の周波数領域特性に結びつけることで、トランスフォーマーの低周波処理に対する固有の偏りが、その相違する堅牢性パターンをいかに説明するかを明らかにする。
我々の研究は、現実世界のアプリケーションのための、より汚職に苦しむ視覚言語モデルを開発する上で、貴重な洞察を提供する。
関連論文リスト
- Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。
本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。
その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-02T11:37:39Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Indoor scene recognition from images under visual corruptions [3.4861209026118836]
本稿では,マルチモーダルデータ融合を利用した屋内シーン認識への革新的アプローチを提案する。
グラフ畳み込みネットワーク(GCN)を用いて,CNNモデルから意味字幕を合成する2つのマルチモーダルネットワークについて検討した。
本研究では,Places365データセットの破損したサブセットに対して評価した場合,Top-1の精度が顕著に向上し,モデル性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-08-23T12:35:45Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - RobustCLEVR: A Benchmark and Framework for Evaluating Robustness in
Object-centric Learning [9.308581290987783]
本稿では,RobustCLEVRベンチマークデータセットと評価フレームワークを提案する。
我々のフレームワークは、因果依存性の仕様化を可能にすることによって、ロバスト性を評価するための新しいアプローチを採っている。
全体として、オブジェクト中心の手法は本質的に画像の破損に対して堅牢ではないことが分かる。
論文 参考訳(メタデータ) (2023-08-28T20:52:18Z) - Hierarchical Contrastive Learning for Pattern-Generalizable Image
Corruption Detection [40.04083743934034]
劣化領域を検出するための階層的コントラスト学習フレームワークを開発する。
特殊な階層的相互作用機構は、異なるスケールでのコントラスト学習の知識を促進するように設計されている。
我々のモデルは様々な汚職パターンにまたがってよく一般化できる。
論文 参考訳(メタデータ) (2023-08-27T10:03:48Z) - Frequency-Based Vulnerability Analysis of Deep Learning Models against
Image Corruptions [48.34142457385199]
MUFIAは、モデルが失敗する可能性のある特定の種類の汚職を特定するために設計されたアルゴリズムである。
最先端のモデルでさえ、既知の一般的な汚職に対して堅牢であるように訓練されたモデルでさえ、MUFIAによって作られた低視認性ベースの汚職と戦っている。
論文 参考訳(メタデータ) (2023-06-12T15:19:13Z) - A Survey on the Robustness of Computer Vision Models against Common Corruptions [3.6486148851646063]
コンピュータビジョンモデルは、センサーエラーや極端な撮像環境に起因する入力画像の変化に影響を受けやすい。
これらの破損は、現実のシナリオにデプロイする際のモデルの信頼性を著しく損なう可能性がある。
本稿では,コンピュータビジョンモデルの汎用汚職に対する堅牢性を改善する手法について概観する。
論文 参考訳(メタデータ) (2023-05-10T10:19:31Z) - Improving robustness against common corruptions with frequency biased
models [112.65717928060195]
目に見えない画像の腐敗は 驚くほど大きなパフォーマンス低下を引き起こします
画像の破損タイプは周波数スペクトルで異なる特性を持ち、ターゲットタイプのデータ拡張の恩恵を受けます。
畳み込み特徴マップの総変動(TV)を最小限に抑え、高周波堅牢性を高める新しい正規化方式を提案する。
論文 参考訳(メタデータ) (2021-03-30T10:44:50Z) - On Interaction Between Augmentations and Corruptions in Natural
Corruption Robustness [78.6626755563546]
ImageNet-Cのパフォーマンスを大幅に改善するいくつかの新しいデータ拡張が提案されている。
我々は,類似度と性能の間に強い相関があることを示すために,最小サンプル距離(minimal sample distance)と呼ばれる拡張と腐敗の間の新たな尺度を開発した。
テストタイムの破損がImageNet-Cと知覚的に異なる場合, 破損の顕著な劣化を観察する。
以上の結果から,テストエラーは知覚的に類似した拡張をトレーニングすることで改善できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-02-22T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。