論文の概要: Are Vision Transformers Robust to Spurious Correlations?
- arxiv url: http://arxiv.org/abs/2203.09125v1
- Date: Thu, 17 Mar 2022 07:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 13:05:57.304441
- Title: Are Vision Transformers Robust to Spurious Correlations?
- Title(参考訳): 視覚トランスフォーマーはスプリアス相関に堅牢か?
- Authors: Soumya Suvra Ghosal, Yifei Ming and Yixuan Li
- Abstract要約: ディープニューラルネットワークは、平均的ではあるが非定型的なテストサンプルにはない、刺激的な相関を学習する可能性がある。
本稿では,3つのベンチマークデータセットにおいて,視覚変換器のロバスト性について検討する。
彼らの成功の鍵は、素早い相関が保たない例からより良く一般化できることである。
- 参考スコア(独自算出の注目度): 23.73056953692978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks may be susceptible to learning spurious correlations
that hold on average but not in atypical test samples. As with the recent
emergence of vision transformer (ViT) models, it remains underexplored how
spurious correlations are manifested in such architectures. In this paper, we
systematically investigate the robustness of vision transformers to spurious
correlations on three challenging benchmark datasets and compare their
performance with popular CNNs. Our study reveals that when pre-trained on a
sufficiently large dataset, ViT models are more robust to spurious correlations
than CNNs. Key to their success is the ability to generalize better from the
examples where spurious correlations do not hold. Further, we perform extensive
ablations and experiments to understand the role of the self-attention
mechanism in providing robustness under spuriously correlated environments. We
hope that our work will inspire future research on further understanding the
robustness of ViT models.
- Abstract(参考訳): ディープニューラルネットワークは、非定型的なテストサンプルにはない平均的な相関関係を学習する影響を受けやすい可能性がある。
視覚トランスフォーマー(vit)モデルが最近出現したのと同様に、このようなアーキテクチャにおいていかにスプリアスな相関が現れるかは未検討のままである。
本稿では,3つの難解なベンチマークデータセットにおけるスプリアス相関に対する視覚トランスフォーマーのロバスト性を調査し,その性能を人気のあるcnnと比較する。
我々の研究は、十分に大きなデータセットで事前訓練された場合、VTモデルはCNNよりも刺激的な相関に頑健であることを示した。
彼らの成功の鍵は、散発的な相関が持たない例からよりよい一般化ができることです。
さらに,スプリアス相関環境下でのロバスト性提供における自己着脱機構の役割を理解するため,広範囲なアブレーションと実験を行った。
われわれの研究がViTモデルの堅牢性をさらに理解するための将来の研究を刺激することを期待している。
関連論文リスト
- Uncovering the Hidden Cost of Model Compression [49.937417635812025]
視覚プロンプティング (VP) はコンピュータビジョンにおいて重要な伝達学習手法として登場した。
モデル間隔は視覚的プロンプトベース転送の性能に悪影響を及ぼす。
以上の結果から,疎度が下流視覚刺激モデルの校正に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Towards Flexible Inductive Bias via Progressive Reparameterization
Scheduling [25.76814731638375]
コンピュータビジョンには、畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)の2つのデファクト標準アーキテクチャがある。
これらのアプローチの見落としとして、最適な帰納バイアスも、対象データスケールの変化に応じて変化することを示す。
畳み込みのような帰納バイアスがモデルに含まれるほど、ViTのようなモデルがResNetのパフォーマンスを上回っている場合、データスケールが小さくなります。
論文 参考訳(メタデータ) (2022-10-04T04:20:20Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Large-scale Robustness Analysis of Video Action Recognition Models [10.017292176162302]
我々は6つの最先端動作認識モデルの90種類の摂動に対する堅牢性について検討した。
1) トランスフォーマーベースモデルはCNNベースモデルと比較して一貫して堅牢であり、2) 事前トレーニングはCNNベースモデルよりもトランスフォーマーベースモデルのロバスト性を改善し、3) 研究されたモデルはすべて、SSv2以外のすべてのデータセットに対して時間的摂動に対して堅牢である。
論文 参考訳(メタデータ) (2022-07-04T13:29:34Z) - SERE: Exploring Feature Self-relation for Self-supervised Transformer [79.5769147071757]
視覚変換器(ViT)は、空間的自己アテンションとチャネルレベルのフィードフォワードネットワークを備えた強力な表現能力を有する。
最近の研究によると、自己教師型学習はViTの大きな可能性を解き放つのに役立つ。
空間次元とチャネル次元のリレーショナルモデリングは、他のネットワークとViTを区別する。
論文 参考訳(メタデータ) (2022-06-10T15:25:00Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z) - Decoupling the Role of Data, Attention, and Losses in Multimodal
Transformers [20.343814813409537]
学習表現の質に影響を与える重要な要因として,事前学習データ,注意機構,損失関数の3つについて検討する。
6つのデータセット上でモデルを事前学習することにより、下流タスクとデータセットのノイズと言語類似性が、モデルパフォーマンスの重要な指標であることを観察する。
自己教師型学習文献では,マルチモーダル変圧器でも同様の性能向上が得られない。
論文 参考訳(メタデータ) (2021-01-31T20:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。