論文の概要: Curved Representation Space of Vision Transformers
- arxiv url: http://arxiv.org/abs/2210.05742v2
- Date: Thu, 14 Dec 2023 14:29:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 05:29:08.403566
- Title: Curved Representation Space of Vision Transformers
- Title(参考訳): 視覚変換器の曲面表現空間
- Authors: Juyeop Kim and Junha Park and Songkuk Kim and Jong-Seok Lee
- Abstract要約: 我々は、トランスフォーマーはCNNよりも汚職に対する堅牢性が高いが、過度に信頼されていないことを示す。
これは、頑丈さが自信を持って増加するという直感とは逆である。
また,線形摂動に対する非線形応答を誘導するアテンション演算の数学的特性についても検討した。
- 参考スコア(独自算出の注目度): 20.86390975953935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks with self-attention (a.k.a. Transformers) like ViT and Swin
have emerged as a better alternative to traditional convolutional neural
networks (CNNs). However, our understanding of how the new architecture works
is still limited. In this paper, we focus on the phenomenon that Transformers
show higher robustness against corruptions than CNNs, while not being
overconfident. This is contrary to the intuition that robustness increases with
confidence. We resolve this contradiction by empirically investigating how the
output of the penultimate layer moves in the representation space as the input
data moves linearly within a small area. In particular, we show the following.
(1) While CNNs exhibit fairly linear relationship between the input and output
movements, Transformers show nonlinear relationship for some data. For those
data, the output of Transformers moves in a curved trajectory as the input
moves linearly. (2) When a data is located in a curved region, it is hard to
move it out of the decision region since the output moves along a curved
trajectory instead of a straight line to the decision boundary, resulting in
high robustness of Transformers. (3) If a data is slightly modified to jump out
of the curved region, the movements afterwards become linear and the output
goes to the decision boundary directly. In other words, there does exist a
decision boundary near the data, which is hard to find only because of the
curved representation space. This explains the underconfident prediction of
Transformers. Also, we examine mathematical properties of the attention
operation that induce nonlinear response to linear perturbation. Finally, we
share our additional findings, regarding what contributes to the curved
representation space of Transformers, and how the curvedness evolves during
training.
- Abstract(参考訳): ViTやSwinのような自己注意型ニューラルネットワーク(別名トランスフォーマー)は、従来の畳み込みニューラルネットワーク(CNN)の代替として登場した。
しかしながら、新しいアーキテクチャの動作に対する私たちの理解はまだ限られています。
本稿では,トランスフォーマーがCNNよりも汚職に対する堅牢性が高いが,過度に信頼されていない現象に着目した。
これは、信頼によって堅牢性が増加するという直観に反する。
入力データが小さい領域内で直線的に移動するとき、ペナルティメート層の出力がどのように表現空間内を移動するかを実証的に検討することで、この矛盾を解消する。
特に、以下に示す。
1) CNNは入力運動と出力運動の間にかなり線形関係を示すが, 変換器はデータに対して非線形関係を示す。
これらのデータに対して、トランスフォーマーの出力は、入力が線形に動くにつれて曲線軌道に移動する。
2) 曲線領域にデータが配置されている場合, 出力が直線ではなく曲線軌道に沿って決定境界に移動するため, 変換器の堅牢性が高いため, 決定領域から外すことは困難である。
3) データが湾曲した領域から飛び出すようにわずかに修正されると、その動きは線形となり、出力は直接決定境界となる。
言い換えれば、データの近くに決定境界が存在するが、曲線表現空間のためだけに見つけることは困難である。
これはトランスフォーマーの信頼性の低い予測を説明する。
また,線形摂動に対する非線形応答を誘導する注意操作の数学的特性について検討する。
最後に、トランスフォーマーの曲面表現空間に何をもたらすか、トレーニング中の曲線性がどのように進化するかについて、さらなる知見を共有します。
関連論文リスト
- Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
そこで我々は,これらのグラフアルゴリズムをそれぞれ実装するための明示的な重み設定を提案し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。