論文の概要: Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images
- arxiv url: http://arxiv.org/abs/2504.04225v1
- Date: Sat, 05 Apr 2025 16:25:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:34.308681
- Title: Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images
- Title(参考訳): 分布外雑音像の存在下での領域一般化のための視覚変換器のレジリエンス
- Authors: Hamza Riaz, Alan F. Smeaton,
- Abstract要約: マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
- 参考スコア(独自算出の注目度): 2.2124795371148616
- License:
- Abstract: Modern AI models excel in controlled settings but often fail in real-world scenarios where data distributions shift unpredictably - a challenge known as domain generalisation (DG). This paper tackles this limitation by rigorously evaluating vision tramsformers, specifically the BEIT architecture which is a model pre-trained with masked image modelling (MIM), against synthetic out-of-distribution (OOD) benchmarks designed to mimic real-world noise and occlusions. We introduce a novel framework to generate OOD test cases by strategically masking object regions in images using grid patterns (25\%, 50\%, 75\% occlusion) and leveraging cutting-edge zero-shot segmentation via Segment Anything and Grounding DINO to ensure precise object localisation. Experiments across three benchmarks (PACS, Office-Home, DomainNet) demonstrate BEIT's known robustness while maintaining 94\% accuracy on PACS and 87\% on Office-Home, despite significant occlusions, outperforming CNNs and other vision transformers by margins of up to 37\%. Analysis of self-attention distances reveals that the BEIT dependence on global features correlates with its resilience. Furthermore, our synthetic benchmarks expose critical failure modes: performance degrades sharply when occlusions disrupt object shapes e.g. 68\% drop for external grid masking vs. 22\% for internal masking. This work provides two key advances (1) a scalable method to generate OOD benchmarks using controllable noise, and (2) empirical evidence that MIM and self-attention mechanism in vision transformers enhance DG by learning invariant features. These insights bridge the gap between lab-trained models and real-world deployment that offer a blueprint for building AI systems that generalise reliably under uncertainty.
- Abstract(参考訳): 現代のAIモデルは、制御された設定で優れているが、データ分散が予測できない現実のシナリオで失敗することが多い。
本稿では,視覚トラスフォーマー,特にマスク画像モデリング(MIM)で事前訓練されたモデルであるBEITアーキテクチャを,現実世界のノイズやオクルージョンを模倣する合成アウト・オブ・ディストリビューション(OOD)ベンチマークに対して厳格に評価することにより,この制限に対処する。
グリッドパターン (25\%, 50\%, 75\% 閉塞) を用いて画像中のオブジェクト領域を戦略的にマスキングし, セグメント・アニーシングとグラウンド・ディノによる最先端のゼロショット・セグメンテーションを活用することにより, OODテストケースを生成する新しいフレームワークを提案する。
PACS、Office-Home、DomainNetの3つのベンチマーク(PACS、Office-Home、DomainNet)での実験では、最大37.5%のマージンでCNNと他のビジョントランスフォーマーを上回っているにも関わらず、PACSの94.%とOffice-Homeの87.%の精度を維持しながら、BEITの既知の堅牢性を実証している。
自己注意距離の分析により、BEITがグローバルな特徴に依存していることが、そのレジリエンスと相関していることが判明した。
さらに,本ベンチマークでは,外部グリッドマスキングでは物体形状が破壊される場合,内部マスキングでは22.2%に対して,オクルージョンでは物体形状が破壊される場合,性能が急激に低下する。
本研究は,(1)制御可能な雑音を用いたOODベンチマーク作成のためのスケーラブルな手法,(2)視覚変換器におけるMIMと自己認識機構が,不変特徴の学習によりDGを向上させるという実証的証拠を提供する。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
関連論文リスト
- Cluster and Predict Latent Patches for Improved Masked Image Modeling [25.616762947410045]
我々は,潜在クラスタリングの予測に依存する新しい純粋なMIMフレームワークであるCAPIを紹介する。
このアプローチでは,トレーニングに安定なクラスタリングベースの損失を活用し,有望なスケーリング特性を示す。
我々のVT-LバックボーンであるCAPIは、ImageNetで83.8%、ADE20Kで32.1%のmIoUを単純な線形プローブで達成している。
論文 参考訳(メタデータ) (2025-02-12T20:17:10Z) - DRIVE: Dual-Robustness via Information Variability and Entropic Consistency in Source-Free Unsupervised Domain Adaptation [10.127634263641877]
ラベル付きデータなしで機械学習モデルを新しいドメインに適応させることは、医療画像、自律運転、リモートセンシングといったアプリケーションにおいて重要な課題である。
Source-Free Unsupervised Domain Adaptation (SFUDA)と呼ばれるこのタスクでは、未ラベルのターゲットデータのみを使用して、トレーニング済みのモデルをターゲットドメインに適応させる。
既存のSFUDAメソッドは、しばしば単一モデルアーキテクチャに依存し、ターゲットドメインにおける不確実性と可変性に悩まされる。
本稿では、2重モデルアーキテクチャを利用した新しいSFUDAフレームワークDRIVEを提案する。
論文 参考訳(メタデータ) (2024-11-24T20:35:04Z) - Accelerating Domain-Aware Electron Microscopy Analysis Using Deep Learning Models with Synthetic Data and Image-Wide Confidence Scoring [0.0]
我々は物理に基づく合成画像とデータ生成装置を作成し、その結果、同等の精度(0.86)、リコール(0.63)、F1スコア(0.71)、エンジニアリング特性予測(R2=0.82)を実現する機械学習モデルを得た。
本研究は,合成データがMLの人間依存を排除し,画像毎に多くの特徴を検出する必要がある場合に,ドメイン認識の手段を提供することを示す。
論文 参考訳(メタデータ) (2024-08-02T20:15:15Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [13.163784646113214]
最近CTTA(Continuous Test-Time Adaptation)が、ターゲットドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望なテクニックとして登場した。
まず、オブジェクトレベルのコントラスト学習モジュールは、対象領域における特徴表現を洗練させるために、コントラスト学習のためのオブジェクトレベルの特徴を抽出する。
第2に、適応監視モジュールは、不要な適応を動的にスキップし、予測された信頼度スコアに基づいてカテゴリ固有のしきい値を更新して、効率を向上し、擬似ラベルの品質を向上させる。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - From Environmental Sound Representation to Robustness of 2D CNN Models
Against Adversarial Attacks [82.21746840893658]
本稿では, 各種環境音響表現(スペクトログラム)が, 被害者残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
DWTスペクトログラムでトレーニングしたResNet-18モデルでは高い認識精度が得られたが、このモデルに対する攻撃は敵にとって比較的コストがかかる。
論文 参考訳(メタデータ) (2022-04-14T15:14:08Z) - On the Robustness of Quality Measures for GANs [136.18799984346248]
本研究は、インセプションスコア(IS)やFr'echet Inception Distance(FID)のような生成モデルの品質測定の堅牢性を評価する。
このような測度は、加算画素摂動によっても操作可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T06:43:09Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。