論文の概要: AxWin Transformer: A Context-Aware Vision Transformer Backbone with
Axial Windows
- arxiv url: http://arxiv.org/abs/2305.01280v1
- Date: Tue, 2 May 2023 09:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 14:44:46.954518
- Title: AxWin Transformer: A Context-Aware Vision Transformer Backbone with
Axial Windows
- Title(参考訳): AxWin Transformer: Axial Windowsを使ったコンテキスト対応ビジョントランスフォーマーバックボーン
- Authors: Fangjian Lin, Yizhe Ma, Sitong Wu, Long Yu, Shengwei Tian
- Abstract要約: 最近Transformerは、強力なモデリング機能のために、いくつかのビジョンタスクで優れたパフォーマンスを示している。
ローカルウィンドウと軸方向ビューの両方でコンテキスト情報をモデル化するAxWin Attentionを提案する。
AxWin Attentionに基づいて、AxWin Transformerというコンテキスト認識型視覚変換器のバックボーンを開発する。
- 参考スコア(独自算出の注目度): 4.406336825345075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently Transformer has shown good performance in several vision tasks due
to its powerful modeling capabilities. To reduce the quadratic complexity
caused by the attention, some outstanding work restricts attention to local
regions or extends axial interactions. However, these methos often lack the
interaction of local and global information, balancing coarse and fine-grained
information. To address this problem, we propose AxWin Attention, which models
context information in both local windows and axial views. Based on the AxWin
Attention, we develop a context-aware vision transformer backbone, named AxWin
Transformer, which outperforming the state-of-the-art methods in both
classification and downstream segmentation and detection tasks.
- Abstract(参考訳): 最近のtransformerは、強力なモデリング能力により、いくつかのビジョンタスクで優れたパフォーマンスを示している。
注意によって生じる二次的複雑さを減らすために、いくつかの優れた作業は局所的な領域への注意を制限したり、軸方向の相互作用を拡張したりする。
しかし、これらのメソはしばしば局所的情報と世界的情報の相互作用を欠き、粗い情報と細かい情報のバランスをとる。
この問題に対処するため,ローカルウィンドウと軸方向ビューの両方でコンテキスト情報をモデル化するAxWin Attentionを提案する。
axwinの注意に基づいて、分類と下流セグメンテーションと検出タスクの両方において最先端の手法に匹敵する、axwin transformerというコンテキスト認識視覚トランスフォーマーを開発した。
関連論文リスト
- ACC-ViT : Atrous Convolution's Comeback in Vision Transformers [5.224344210588584]
我々は,地域情報とグローバル情報の両方を適応的に統合できる,地域的・疎外的な注意の融合であるAtrous Attentionを紹介した。
また、標準的な視覚タスクの慣行に従って、ACC-ViTと呼ばれる一般的な視覚変換器のバックボーンを提案する。
そのためACC-ViTは強力なビジョンバックボーンであり、小さなデータセットを持つニッチアプリケーションには理想的だ。
論文 参考訳(メタデータ) (2024-03-07T04:05:16Z) - Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - Video Frame Interpolation with Transformer [55.12620857638253]
本稿では,ビデオフレーム間の長距離画素相関をモデル化するためにTransformerを利用した新しいフレームワークを提案する。
我々のネットワークは、クロススケールウィンドウが相互に相互作用する新しいウィンドウベースのアテンション機構を備えている。
論文 参考訳(メタデータ) (2022-05-15T09:30:28Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - BOAT: Bilateral Local Attention Vision Transformer [70.32810772368151]
ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。
最近のビジョントランスフォーマーでは、ローカルウィンドウ内で自己アテンションが計算されるローカル自己アテンション機構を採用している。
本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。
論文 参考訳(メタデータ) (2022-01-31T07:09:50Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。