論文の概要: Always Skip Attention
- arxiv url: http://arxiv.org/abs/2505.01996v1
- Date: Sun, 04 May 2025 05:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.368601
- Title: Always Skip Attention
- Title(参考訳): 常にスキップ注意
- Authors: Yiping Ji, Hemanth Saratchandran, Peyman Moghaddam, Simon Lucey,
- Abstract要約: 自己注意カタストロフィックは、スキップ接続と併用されない限り、トレーニングに失敗する。
スキップ接続に対するこの重要な依存は比較的新しい現象であることを示す。
Token Graying - 入力トークンの条件をさらに改善する、シンプルで効果的な補完(接続をスキップする)を提案する。
- 参考スコア(独自算出の注目度): 24.57801400001629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We highlight a curious empirical result within modern Vision Transformers (ViTs). Specifically, self-attention catastrophically fails to train unless it is used in conjunction with a skip connection. This is in contrast to other elements of a ViT that continue to exhibit good performance (albeit suboptimal) when skip connections are removed. Further, we show that this critical dependence on skip connections is a relatively new phenomenon, with previous deep architectures (\eg, CNNs) exhibiting good performance in their absence. In this paper, we theoretically characterize that the self-attention mechanism is fundamentally ill-conditioned and is, therefore, uniquely dependent on skip connections for regularization. Additionally, we propose Token Graying -- a simple yet effective complement (to skip connections) that further improves the condition of input tokens. We validate our approach in both supervised and self-supervised training methods.
- Abstract(参考訳): 現代のビジョントランスフォーマー(ViT)において、興味深い経験結果が浮かび上がっている。
特に、自己注意は、スキップ接続と併用されない限り、破滅的な訓練に失敗する。
これとは対照的に、スキップ接続が削除された場合、ViTの他の要素は優れたパフォーマンス(ただし、最適ではない)を示し続ける。
さらに、スキップ接続に対するこの重要な依存は比較的新しい現象であり、従来のディープアーキテクチャ (\eg, CNN) は不在時の優れた性能を示す。
本稿では,自己注意機構が基本的に不調であり,従って,正規化のためのスキップ接続に一意に依存することを理論的に特徴づける。
さらに,入力トークンの状態を改善するシンプルな補完(接続をスキップする)であるToken Grayingを提案する。
我々は,教師付きおよび自己監督型トレーニング手法の両方において,我々のアプローチを検証する。
関連論文リスト
- On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - Why Does Little Robustness Help? Understanding and Improving Adversarial
Transferability from Surrogate Training [24.376314203167016]
DNNの逆例(AE)は転送可能であることが示されている。
本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出す。
論文 参考訳(メタデータ) (2023-07-15T19:20:49Z) - Catastrophic overfitting can be induced with discriminative non-robust
features [95.07189577345059]
自然画像の典型的データセットの制御による一段階AT法におけるCOの開始について検討した。
本研究は, 一見無害な画像の注入により, 従来よりはるかに小さいエプシロン$値でCOを誘導できることを示唆する。
論文 参考訳(メタデータ) (2022-06-16T15:22:39Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - Exploring Self-attention for Image Recognition [151.12000247183636]
画像認識における自己注意の2つの形態について考察する。
ひとつは、標準的なドット積の注意を一般化する、ペアワイズな自己注意である。
もう1つはパッチワイドな自己認識であり、畳み込みよりも厳格に強力です。
論文 参考訳(メタデータ) (2020-04-28T16:01:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。