論文の概要: Curved Representation Space of Vision Transformers
- arxiv url: http://arxiv.org/abs/2210.05742v1
- Date: Tue, 11 Oct 2022 19:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:29:26.344415
- Title: Curved Representation Space of Vision Transformers
- Title(参考訳): 視覚変換器の曲面表現空間
- Authors: Juyeop Kim and Junha Park and Songkuk Kim and Jong-Seok Lee
- Abstract要約: 我々は、トランスフォーマーはCNNよりも汚職に対する堅牢性が高いが、過度に信頼されていないことを示す。
これは、自信で堅牢性を高める直観とは逆である。
- 参考スコア(独自算出の注目度): 18.223370075301375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks with self-attention (a.k.a. Transformers) like ViT and Swin
have emerged as a better alternative to traditional convolutional neural
networks (CNNs) for computer vision tasks. However, our understanding of how
the new architecture works is still limited. In this paper, we focus on the
phenomenon that Transformers show higher robustness against corruptions than
CNNs, while not being overconfident (in fact, we find Transformers are actually
underconfident). This is contrary to the intuition that robustness increases
with confidence. We resolve this contradiction by investigating how the output
of the penultimate layer moves in the representation space as the input data
moves within a small area. In particular, we show the following. (1) While CNNs
exhibit fairly linear relationship between the input and output movements,
Transformers show nonlinear relationship for some data. For those data, the
output of Transformers moves in a curved trajectory as the input moves
linearly. (2) When a data is located in a curved region, it is hard to move it
out of the decision region since the output moves along a curved trajectory
instead of a straight line to the decision boundary, resulting in high
robustness of Transformers. (3) If a data is slightly modified to jump out of
the curved region, the movements afterwards become linear and the output goes
to the decision boundary directly. Thus, Transformers can be attacked easily
after a small random jump and the perturbation in the final attacked data
remains imperceptible, i.e., there does exist a decision boundary near the
data. This also explains the underconfident prediction of Transformers. (4) The
curved regions in the representation space start to form at an early training
stage and grow throughout the training course. Some data are trapped in the
regions, obstructing Transformers from reducing the training loss.
- Abstract(参考訳): ViTやSwinのような自己注意型ニューラルネットワーク(別名トランスフォーマー)は、コンピュータビジョンタスクのための従来の畳み込みニューラルネットワーク(CNN)の代替として登場した。
しかしながら、新しいアーキテクチャの動作に対する私たちの理解はまだ限られています。
本稿では,トランスフォーマーがCNNよりも汚職に対する堅牢性が高いが,過度に信頼されていない(事実,トランスフォーマーの信頼性は低い)現象に注目した。
これは、信頼によって堅牢性が増加するという直観に反する。
我々はこの矛盾を、入力データが小さな領域内を移動するときに、入力層の出力が表現空間内でどのように動くかを調べることで解決する。
特に、以下に示す。
1) CNNは入力運動と出力運動の間にかなり線形関係を示すが, 変換器はデータに対して非線形関係を示す。
これらのデータに対して、トランスフォーマーの出力は、入力が線形に動くにつれて曲線軌道に移動する。
2) 曲線領域にデータが配置されている場合, 出力が直線ではなく曲線軌道に沿って決定境界に移動するため, 変換器の堅牢性が高いため, 決定領域から外すことは困難である。
3) データが湾曲した領域から飛び出すようにわずかに修正されると、その動きは線形となり、出力は直接決定境界となる。
これにより、小さなランダムジャンプ後に容易に変圧器を攻撃でき、最終攻撃データにおける摂動は、データの近くに決定境界が存在するように、まだ知覚できない。
これはトランスフォーマーの信頼性の低い予測についても説明している。
(4) 表象空間の湾曲した領域は、初期の訓練段階から形成し始め、訓練コース全体にわたって成長する。
一部のデータはリージョンに閉じ込められ、トランスフォーマーがトレーニング損失を減らすのを妨げる。
関連論文リスト
- Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
そこで我々は,これらのグラフアルゴリズムをそれぞれ実装するための明示的な重み設定を提案し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。