論文の概要: Blending Anti-Aliasing into Vision Transformer
- arxiv url: http://arxiv.org/abs/2110.15156v1
- Date: Thu, 28 Oct 2021 14:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 22:50:25.141202
- Title: Blending Anti-Aliasing into Vision Transformer
- Title(参考訳): 視覚変換器へのアンチエイリアシング
- Authors: Shengju Qian, Hao Shao, Yi Zhu, Mu Li, Jiaya Jia
- Abstract要約: 不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
- 参考スコア(独自算出の注目度): 57.88274087198552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer architectures, based on self-attention mechanism and
convolution-free design, recently found superior performance and booming
applications in computer vision. However, the discontinuous patch-wise
tokenization process implicitly introduces jagged artifacts into attention
maps, arising the traditional problem of aliasing for vision transformers.
Aliasing effect occurs when discrete patterns are used to produce high
frequency or continuous information, resulting in the indistinguishable
distortions. Recent researches have found that modern convolution networks
still suffer from this phenomenon. In this work, we analyze the uncharted
problem of aliasing in vision transformer and explore to incorporate
anti-aliasing properties. Specifically, we propose a plug-and-play
Aliasing-Reduction Module(ARM) to alleviate the aforementioned issue. We
investigate the effectiveness and generalization of the proposed method across
multiple tasks and various vision transformer families. This lightweight design
consistently attains a clear boost over several famous structures. Furthermore,
our module also improves data efficiency and robustness of vision transformers.
- Abstract(参考訳): 自己着脱機構と畳み込みフリー設計に基づくトランスフォーマーアーキテクチャは、最近コンピュータビジョンにおいて優れた性能とブームアプリケーションを見出した。
しかしながら、不連続なパッチワイズトークン化プロセスは暗黙的にジャグリングされたアーティファクトをアテンションマップに導入し、従来の視覚トランスフォーマーのエイリアス問題の原因となっている。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
近年の研究では、現代の畳み込みネットワークは依然としてこの現象に悩まされている。
本研究では,視覚変換器のエイリアス化問題を分析し,アンチエイリアス特性を取り入れようと試みる。
具体的には、上記の問題を緩和するAliasing-Reduction Module(ARM)を提案する。
提案手法の有効性と一般化について,複数のタスクと様々な視覚変換器ファミリーで検討する。
この軽量設計は、いくつかの有名な構造物に対して一貫して明確な強化を達成している。
さらに、我々のモジュールは、視覚変換器のデータ効率とロバスト性も向上する。
関連論文リスト
- Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - AdaViT: Adaptive Vision Transformers for Efficient Image Recognition [78.07924262215181]
AdaViTは、パッチ、セルフアテンションヘッド、およびトランスフォーマーブロックを使用するための利用ポリシーを導出する適応フレームワークである。
本手法は,0.8%の精度で,最先端のビジョントランスに比べて2倍以上の効率向上を実現している。
論文 参考訳(メタデータ) (2021-11-30T18:57:02Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Improve Vision Transformers Training by Suppressing Over-smoothing [28.171262066145612]
トランス構造をコンピュータビジョンのタスクに導入することで、従来の畳み込みネットワークよりも優れたスピード精度のトレードオフが得られます。
しかし、視覚タスクでバニラ変圧器を直接訓練すると、不安定で準最適結果が得られることが示されている。
近年の研究では,視覚タスクの性能向上のために,畳み込み層を導入してトランスフォーマー構造を改良することを提案する。
論文 参考訳(メタデータ) (2021-04-26T17:43:04Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。