論文の概要: CrossFormer: A Versatile Vision Transformer Based on Cross-scale
Attention
- arxiv url: http://arxiv.org/abs/2108.00154v1
- Date: Sat, 31 Jul 2021 05:52:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:34:13.144948
- Title: CrossFormer: A Versatile Vision Transformer Based on Cross-scale
Attention
- Title(参考訳): crossformer: クロススケール注意に基づく多用途視覚トランスフォーマ
- Authors: Wenxiao Wang, Lu Yao, Long Chen, Deng Cai, Xiaofei He and Wei Liu
- Abstract要約: クロススケールな埋め込み層(CEL)と長短距離注意(LSDA)を提案する。
CELは各埋め込みを異なるスケールの複数のパッチでブレンドし、モデルにクロススケールな埋め込みを提供する。
LSDAは自己保持モジュールを短距離で長距離のモジュールに分割し、コストを下げるが、小さな機能と大規模な機能の両方を埋め込みに保持する。
- 参考スコア(独自算出の注目度): 37.39327010226153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have made much progress in dealing with visual tasks. However,
existing vision transformers still do not possess an ability that is important
to visual input: building the attention among features of different scales. The
reasons for this problem are two-fold: (1) Input embeddings of each layer are
equal-scale without cross-scale features; (2) Some vision transformers
sacrifice the small-scale features of embeddings to lower the cost of the
self-attention module. To make up this defect, we propose Cross-scale Embedding
Layer (CEL) and Long Short Distance Attention (LSDA). In particular, CEL blends
each embedding with multiple patches of different scales, providing the model
with cross-scale embeddings. LSDA splits the self-attention module into a
short-distance and long-distance one, also lowering the cost but keeping both
small-scale and large-scale features in embeddings. Through these two designs,
we achieve cross-scale attention. Besides, we propose dynamic position bias for
vision transformers to make the popular relative position bias apply to
variable-sized images. Based on these proposed modules, we construct our vision
architecture called CrossFormer. Experiments show that CrossFormer outperforms
other transformers on several representative visual tasks, especially object
detection and segmentation. The code has been released:
https://github.com/cheerss/CrossFormer.
- Abstract(参考訳): トランスフォーマーは視覚的なタスクの処理に大きく進歩した。
しかし、既存の視覚変換器は、視覚入力にとって重要な能力を持っていない。
この問題の理由は2つある: 1) 各層の入力埋め込みは、クロススケールな特徴のない等スケールである; (2) 視覚変換器は、自己保持モジュールのコストを下げるために、埋め込みの小さな特徴を犠牲にする。
この欠陥を解消するために,クロススケール埋め込み層 (cel) とlong short distance attention (lsda) を提案する。
特にCELは、それぞれの埋め込みを異なるスケールの複数のパッチでブレンドし、モデルにクロススケールな埋め込みを提供する。
LSDAは自己保持モジュールを短距離で長距離のモジュールに分割し、コストを下げるが、小さな機能と大規模な機能の両方を埋め込みに保持する。
これら2つの設計を通して、我々は大規模に注目する。
また,視覚変換器の動的位置偏差を可変サイズ画像に適用するための動的位置偏差を提案する。
これらのモジュールに基づいて、CrossFormerというビジョンアーキテクチャを構築します。
実験の結果、CrossFormerはいくつかの代表的な視覚タスク、特にオブジェクトの検出とセグメンテーションにおいて、他のトランスフォーマーよりも優れていた。
コードがリリースされた。 https://github.com/cheerss/CrossFormer。
関連論文リスト
- Attention Deficit is Ordered! Fooling Deformable Vision Transformers
with Collaborative Adversarial Patches [3.4673556247932225]
変形可能な視覚変換器は、注意モデリングの複雑さを著しく低減する。
最近の研究は、従来の視覚変換器に対する敵攻撃を実証している。
我々は,対象のパッチに注意を向けるようにソースパッチが操作する新たなコラボレーティブアタックを開発する。
論文 参考訳(メタデータ) (2023-11-21T17:55:46Z) - CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale
Attention [20.222118579325297]
クロススケールな視覚変換器であるCrossFormerを提案する。
クロススケール埋め込み層(CEL)と長短距離アテンション(LSDA)を導入している。
論文 参考訳(メタデータ) (2023-03-13T07:54:29Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。