論文の概要: Are Vision Transformers Robust to Spurious Correlations?
- arxiv url: http://arxiv.org/abs/2203.09125v1
- Date: Thu, 17 Mar 2022 07:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 13:05:57.304441
- Title: Are Vision Transformers Robust to Spurious Correlations?
- Title(参考訳): 視覚トランスフォーマーはスプリアス相関に堅牢か?
- Authors: Soumya Suvra Ghosal, Yifei Ming and Yixuan Li
- Abstract要約: ディープニューラルネットワークは、平均的ではあるが非定型的なテストサンプルにはない、刺激的な相関を学習する可能性がある。
本稿では,3つのベンチマークデータセットにおいて,視覚変換器のロバスト性について検討する。
彼らの成功の鍵は、素早い相関が保たない例からより良く一般化できることである。
- 参考スコア(独自算出の注目度): 23.73056953692978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks may be susceptible to learning spurious correlations
that hold on average but not in atypical test samples. As with the recent
emergence of vision transformer (ViT) models, it remains underexplored how
spurious correlations are manifested in such architectures. In this paper, we
systematically investigate the robustness of vision transformers to spurious
correlations on three challenging benchmark datasets and compare their
performance with popular CNNs. Our study reveals that when pre-trained on a
sufficiently large dataset, ViT models are more robust to spurious correlations
than CNNs. Key to their success is the ability to generalize better from the
examples where spurious correlations do not hold. Further, we perform extensive
ablations and experiments to understand the role of the self-attention
mechanism in providing robustness under spuriously correlated environments. We
hope that our work will inspire future research on further understanding the
robustness of ViT models.
- Abstract(参考訳): ディープニューラルネットワークは、非定型的なテストサンプルにはない平均的な相関関係を学習する影響を受けやすい可能性がある。
視覚トランスフォーマー(vit)モデルが最近出現したのと同様に、このようなアーキテクチャにおいていかにスプリアスな相関が現れるかは未検討のままである。
本稿では,3つの難解なベンチマークデータセットにおけるスプリアス相関に対する視覚トランスフォーマーのロバスト性を調査し,その性能を人気のあるcnnと比較する。
我々の研究は、十分に大きなデータセットで事前訓練された場合、VTモデルはCNNよりも刺激的な相関に頑健であることを示した。
彼らの成功の鍵は、散発的な相関が持たない例からよりよい一般化ができることです。
さらに,スプリアス相関環境下でのロバスト性提供における自己着脱機構の役割を理解するため,広範囲なアブレーションと実験を行った。
われわれの研究がViTモデルの堅牢性をさらに理解するための将来の研究を刺激することを期待している。
関連論文リスト
- Autoencoder based approach for the mitigation of spurious correlations [2.7624021966289605]
純粋な相関は、真の基盤となる関係を反映しないデータの誤関連を指す。
これらの相関により、ディープニューラルネットワーク(DNN)は、さまざまなデータセットや実世界のシナリオで堅牢でないパターンを学ぶことができる。
本稿では,GWHD(Global Wheat Head Detection)2021データセットに存在するスプリアス相関の性質を自動エンコーダで解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-27T05:28:44Z) - RAT: Retrieval-Augmented Transformer for Click-Through Rate Prediction [68.34355552090103]
本稿では, 試料内および試料間における微細な特徴相互作用の獲得を目的とした検索-拡張変換器(RAT)を開発した。
次に、トランスフォーマー層をカスケードされた注意で構築し、イントラサンプルとクロスサンプルの両方の機能インタラクションをキャプチャします。
実世界のデータセットの実験は、RATの有効性を裏付け、ロングテールシナリオにおいてその利点を示唆している。
論文 参考訳(メタデータ) (2024-04-02T19:14:23Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - Towards Flexible Inductive Bias via Progressive Reparameterization
Scheduling [25.76814731638375]
コンピュータビジョンには、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の2つのデファクト標準アーキテクチャがある。
これらのアプローチの見落としとして、最適な帰納バイアスも、対象データスケールの変化に応じて変化することを示す。
畳み込みのような帰納バイアスがモデルに含まれるほど、ViTのようなモデルがResNetのパフォーマンスを上回っている場合、データスケールが小さくなります。
論文 参考訳(メタデータ) (2022-10-04T04:20:20Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。