論文の概要: Your Attention Matters: to Improve Model Robustness to Noise and Spurious Correlations
- arxiv url: http://arxiv.org/abs/2507.20453v1
- Date: Mon, 28 Jul 2025 01:07:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.76243
- Title: Your Attention Matters: to Improve Model Robustness to Noise and Spurious Correlations
- Title(参考訳): 注意すべきこと:騒音とすっきりした相関に対するモデルロバスト性を改善する
- Authors: Camilo Tamayo-Rousseau, Yunjia Zhao, Yiqun Zhang, Randall Balestriero,
- Abstract要約: 本研究では、異なるデータ破損シナリオ下で、Vision Transformer内のSoftmax、Sigmoid、Linear、Dubly、Cosineの注意度を評価する。
本研究は,不完全データを用いた文脈における自己注意選択について報告する。
- 参考スコア(独自算出の注目度): 14.043070824228717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention mechanisms are foundational to Transformer architectures, supporting their impressive success in a wide range of tasks. While there are many self-attention variants, their robustness to noise and spurious correlations has not been well studied. This study evaluates Softmax, Sigmoid, Linear, Doubly Stochastic, and Cosine attention within Vision Transformers under different data corruption scenarios. Through testing across the CIFAR-10, CIFAR-100, and Imagenette datasets, we show that Doubly Stochastic attention is the most robust. Our findings inform self-attention selection in contexts with imperfect data.
- Abstract(参考訳): セルフアテンションメカニズムはTransformerアーキテクチャの基礎であり、幅広いタスクにおける彼らの印象的な成功をサポートする。
多くの自己注意変種が存在するが、その雑音に対する頑健性や突発的相関性は十分に研究されていない。
本研究では、異なるデータ破損シナリオ下で、Vision Transformer内のSoftmax、Sigmoid、Linear、Douubly Stochastic、Cosineの注意度を評価する。
CIFAR-10、CIFAR-100、Imagenetteのデータセットでのテストを通じて、Douubly Stochasticの注目が最も堅牢であることを示す。
本研究は,不完全データを用いた文脈における自己注意選択について報告する。
関連論文リスト
- 4,500 Seconds: Small Data Training Approaches for Deep UAV Audio Classification [2.3354223046061016]
本研究では,UAV分類における深層学習のアプローチについて,データ不足の重要な問題に着目して検討する。
合計4,500秒のオーディオサンプルを使用してモデルをトレーニングし、9クラスのデータセットに均等に分散する。
我々は、畳み込みニューラルネットワーク(CNN)とアテンションベースのトランスフォーマーの使用を比較した。
論文 参考訳(メタデータ) (2025-05-21T22:34:07Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Object-Level Verbalized Confidence Calibration in Vision-Language Models via Semantic Perturbation [26.580361841501514]
視覚言語モデル(VLM)は様々なマルチモーダルタスクに優れるが、しばしばキャリブレーションに苦しむ。
この誤判定は、特にモデルが不正確または製造された情報を確実に提供した場合、ユーザーの信頼を損なう。
本稿では,文節摂動(CSP)フレームワークを新たに提案し,オブジェクト中心クエリの言語的信頼度を校正する手法を提案する。
論文 参考訳(メタデータ) (2025-04-21T04:01:22Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - Enhancing Cross-Dataset Performance of Distracted Driving Detection With Score Softmax Classifier And Dynamic Gaussian Smoothing Supervision [6.891556476231427]
ディープニューラルネットワークは、車内ドライバのリアルタイム監視を可能にし、邪魔や疲労、潜在的な危険のタイムリーな予測を容易にする。
最近の研究では、限られたデータサンプルとバックグラウンドノイズにより、信頼性の低いクロスデータセットドライバの動作認識が明らかにされている。
Score-Softmax分類器を提案し、カテゴリ独立性を高めてモデル過信を低減する。
論文 参考訳(メタデータ) (2023-10-08T15:28:01Z) - Robustness Analysis on Foundational Segmentation Models [28.01242494123917]
本研究では,セグメンテーションタスクのためのVisual Foundation Models (VFM) のロバストネス解析を行う。
2つの異なるデータセットを使用して、7つの最先端セグメンテーションアーキテクチャをベンチマークする。
VFMは、強靭性において不定形モデルをすべて上回るものではないにもかかわらず、圧縮誘起汚損に対する脆弱性を示し、マルチモーダルモデルはゼロショットシナリオにおける競争力を示し、VFMは特定の対象カテゴリに対して強靭性を示す。
論文 参考訳(メタデータ) (2023-06-15T16:59:42Z) - Robustifying Token Attention for Vision Transformers [72.07710236246285]
ビジョントランスフォーマー(ViT)は、一般的な汚職の存在下でも精度が著しく低下している。
本稿では,2つの一般的な手法を用いて,より注意を安定させる2つの手法を提案する。
まず,Token-Aware Average Pooling (TAP)モジュールは,各トークンの局所的近傍に注意機構に参加することを奨励する。
第二に、出力トークンは、ほんの少しだけに集中するのではなく、多様な入力トークンの集合から情報を集約するように強制する。
論文 参考訳(メタデータ) (2023-03-20T14:04:40Z) - Understanding The Robustness in Vision Transformers [140.1090560977082]
自己注意は、改善された中レベルの表現を通して堅牢性を促進する。
我々は、この能力を強化するために、フルアテンショナルネットワーク(FAN)のファミリーを提案する。
我々のモデルは、76.8Mパラメータを持つImageNet-1kおよびImageNet-C上で、最先端の87.1%の精度と35.8%のmCEを達成する。
論文 参考訳(メタデータ) (2022-04-26T17:16:32Z) - Are Vision Transformers Robust to Spurious Correlations? [23.73056953692978]
ディープニューラルネットワークは、平均的ではあるが非定型的なテストサンプルにはない、刺激的な相関を学習する可能性がある。
本稿では,3つのベンチマークデータセットにおいて,視覚変換器のロバスト性について検討する。
彼らの成功の鍵は、素早い相関が保たない例からより良く一般化できることである。
論文 参考訳(メタデータ) (2022-03-17T07:03:37Z) - RobustART: Benchmarking Robustness on Architecture Design and Training
Techniques [170.3297213957074]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。
本稿では,ImageNet上での包括性調査ベンチマークを提案する。
論文 参考訳(メタデータ) (2021-09-11T08:01:14Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Robust Variational Autoencoder for Tabular Data with Beta Divergence [0.0]
本稿では,連続的特徴と分類的特徴を混合した頑健な変動型オートエンコーダを提案する。
ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-06-15T08:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。