論文の概要: Scratching Visual Transformer's Back with Uniform Attention
- arxiv url: http://arxiv.org/abs/2210.08457v2
- Date: Thu, 26 Dec 2024 02:16:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:23:49.411382
- Title: Scratching Visual Transformer's Back with Uniform Attention
- Title(参考訳): 一様注意による視覚変換器の背中のひび割れ
- Authors: Nam Hyeon-Woo, Kim Yu-Ji, Byeongho Heo, Dongyoon Han, Seong Joon Oh, Tae-Hyun Oh,
- Abstract要約: 本稿では,ViTモデルにおける注目度密度の役割について検討する。
必要な密接な相互作用を提供するために、VTモデルの各層に均一な注意を手動で挿入する。
CBの包含は、本来の注目マップにおける密度の程度を減少させ、ViTモデルのキャパシティと一般化可能性の両方を増大させる。
- 参考スコア(独自算出の注目度): 49.31658397277271
- License:
- Abstract: The favorable performance of Vision Transformers (ViTs) is often attributed to the multi-head self-attention (MSA). The MSA enables global interactions at each layer of a ViT model, which is a contrasting feature against Convolutional Neural Networks (CNNs) that gradually increase the range of interaction across multiple layers. We study the role of the density of the attention. Our preliminary analyses suggest that the spatial interactions of attention maps are close to dense interactions rather than sparse ones. This is a curious phenomenon, as dense attention maps are harder for the model to learn due to steeper softmax gradients around them. We interpret this as a strong preference for ViT models to include dense interaction. We thus manually insert the uniform attention to each layer of ViT models to supply the much needed dense interactions. We call this method Context Broadcasting, CB. We observe that the inclusion of CB reduces the degree of density in the original attention maps and increases both the capacity and generalizability of the ViT models. CB incurs negligible costs: 1 line in your model code, no additional parameters, and minimal extra operations.
- Abstract(参考訳): 視覚変換器(ViT)の好ましい性能は、しばしばマルチヘッド自己注意(MSA)によるものである。
MSAは、複数の層にわたるインタラクションの範囲を徐々に増加させる畳み込みニューラルネットワーク(CNN)とは対照的な機能である、ViTモデルの各層でのグローバルなインタラクションを可能にする。
注意の密度の役割について検討する。
予備的な分析により,注意マップの空間的相互作用は疎密な相互作用よりも密接な相互作用に近いことが示唆された。
これは興味深い現象であり、密度の高い注意マップは、その周りのより急なソフトマックス勾配のために、モデルが学ぶのが難しくなる。
我々はこれを、密接な相互作用を含むViTモデルの強い嗜好であると解釈する。
これにより、必要な密接な相互作用を提供するために、VTモデルの各層に均一な注意を手動で挿入する。
我々はこの手法を Context Broadcasting, CB と呼ぶ。
CBの包含は、本来の注目マップにおける密度の程度を減少させ、ViTモデルのキャパシティと一般化可能性の両方を増大させる。
CBは無視可能なコストを発生させます:モデルのコードに1行、追加のパラメータなし、最小の余分な操作。
関連論文リスト
- Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Accelerating Vision Transformers Based on Heterogeneous Attention
Patterns [89.86293867174324]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で多くの注目を集めている。
層間における異種注意パターンの観測に基づく統合圧縮パイプラインを提案する。
実験的に、DGSSAとGLADの統合圧縮パイプラインは、最大121%のランタイムスループットを加速することができる。
論文 参考訳(メタデータ) (2023-10-11T17:09:19Z) - A Close Look at Spatial Modeling: From Attention to Convolution [70.5571582194057]
ビジョントランスフォーマーは最近、洞察に富んだアーキテクチャ設計とアテンションメカニズムのために、多くのビジョンタスクに対して大きな約束をしました。
我々は、自己意図の定式化を一般化し、クエリ非関連なグローバルコンテキストを直接抽象化し、グローバルコンテキストを畳み込みに統合する。
FCViT-S12は14M未満のパラメータを持つため、ImageNet-1K上でのResT-Liteの精度は3.7%向上した。
論文 参考訳(メタデータ) (2022-12-23T19:13:43Z) - Convolution-enhanced Evolving Attention Networks [41.684265133316096]
Evolving Attention-enhanced Dilated Convolutional (EA-DC-) Transformerは最先端のモデルを大幅に上回っている。
これは、アテンションマップのレイヤーワイド進化を明示的にモデル化する最初の作品である。
論文 参考訳(メタデータ) (2022-12-16T08:14:04Z) - Vision Transformers provably learn spatial structure [34.61885883486938]
ビジョントランスフォーマー(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等または優れたパフォーマンスを達成した。
しかし、最近の研究によると、トレーニング損失を最小限に抑える一方で、ViTは特に空間的局所化パターンを学習している。
論文 参考訳(メタデータ) (2022-10-13T19:53:56Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。