論文の概要: Your Attention Matters: to Improve Model Robustness to Noise and Spurious Correlations
- arxiv url: http://arxiv.org/abs/2507.20453v1
- Date: Mon, 28 Jul 2025 01:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.76243
- Title: Your Attention Matters: to Improve Model Robustness to Noise and Spurious Correlations
- Title(参考訳): 注意すべきこと:騒音とすっきりした相関に対するモデルロバスト性を改善する
- Authors: Camilo Tamayo-Rousseau, Yunjia Zhao, Yiqun Zhang, Randall Balestriero,
- Abstract要約: 本研究では、異なるデータ破損シナリオ下で、Vision Transformer内のSoftmax、Sigmoid、Linear、Dubly、Cosineの注意度を評価する。
本研究は,不完全データを用いた文脈における自己注意選択について報告する。
- 参考スコア(独自算出の注目度): 14.043070824228717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention mechanisms are foundational to Transformer architectures, supporting their impressive success in a wide range of tasks. While there are many self-attention variants, their robustness to noise and spurious correlations has not been well studied. This study evaluates Softmax, Sigmoid, Linear, Doubly Stochastic, and Cosine attention within Vision Transformers under different data corruption scenarios. Through testing across the CIFAR-10, CIFAR-100, and Imagenette datasets, we show that Doubly Stochastic attention is the most robust. Our findings inform self-attention selection in contexts with imperfect data.
- Abstract(参考訳): セルフアテンションメカニズムはTransformerアーキテクチャの基礎であり、幅広いタスクにおける彼らの印象的な成功をサポートする。
多くの自己注意変種が存在するが、その雑音に対する頑健性や突発的相関性は十分に研究されていない。
本研究では、異なるデータ破損シナリオ下で、Vision Transformer内のSoftmax、Sigmoid、Linear、Douubly Stochastic、Cosineの注意度を評価する。
CIFAR-10、CIFAR-100、Imagenetteのデータセットでのテストを通じて、Douubly Stochasticの注目が最も堅牢であることを示す。
本研究は,不完全データを用いた文脈における自己注意選択について報告する。
関連論文リスト
- Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Are Vision Transformers Robust to Spurious Correlations? [23.73056953692978]
ディープニューラルネットワークは、平均的ではあるが非定型的なテストサンプルにはない、刺激的な相関を学習する可能性がある。
本稿では,3つのベンチマークデータセットにおいて,視覚変換器のロバスト性について検討する。
彼らの成功の鍵は、素早い相関が保たない例からより良く一般化できることである。
論文 参考訳(メタデータ) (2022-03-17T07:03:37Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。