論文の概要: CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale
Attention
- arxiv url: http://arxiv.org/abs/2303.06908v2
- Date: Fri, 1 Dec 2023 02:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 01:27:27.701437
- Title: CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale
Attention
- Title(参考訳): crossformer++: クロススケールに注目する多用途視覚トランスフォーマー
- Authors: Wenxiao Wang, Wei Chen, Qibo Qiu, Long Chen, Boxi Wu, Binbin Lin,
Xiaofei He and Wei Liu
- Abstract要約: クロススケールな視覚変換器であるCrossFormerを提案する。
クロススケール埋め込み層(CEL)と長短距離アテンション(LSDA)を導入している。
- 参考スコア(独自算出の注目度): 20.222118579325297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While features of different scales are perceptually important to visual
inputs, existing vision transformers do not yet take advantage of them
explicitly. To this end, we first propose a cross-scale vision transformer,
CrossFormer. It introduces a cross-scale embedding layer (CEL) and a long-short
distance attention (LSDA). On the one hand, CEL blends each token with multiple
patches of different scales, providing the self-attention module itself with
cross-scale features. On the other hand, LSDA splits the self-attention module
into a short-distance one and a long-distance counterpart, which not only
reduces the computational burden but also keeps both small-scale and
large-scale features in the tokens. Moreover, through experiments on
CrossFormer, we observe another two issues that affect vision transformers'
performance, i.e., the enlarging self-attention maps and amplitude explosion.
Thus, we further propose a progressive group size (PGS) paradigm and an
amplitude cooling layer (ACL) to alleviate the two issues, respectively. The
CrossFormer incorporating with PGS and ACL is called CrossFormer++. Extensive
experiments show that CrossFormer++ outperforms the other vision transformers
on image classification, object detection, instance segmentation, and semantic
segmentation tasks. The code will be available at:
https://github.com/cheerss/CrossFormer.
- Abstract(参考訳): 異なるスケールの特徴は視覚入力にとって知覚的に重要であるが、既存の視覚トランスフォーマーはまだそれらを明示的に活用していない。
そこで我々はまず,クロススケールな視覚変換器であるCrossFormerを提案する。
クロススケール埋め込み層(CEL)と長距離注意層(LSDA)を導入している。
一方、CELは各トークンを異なるスケールの複数のパッチでブレンドし、セルフアテンションモジュール自体にクロススケールの機能を提供します。
一方lsdaは、セルフアテンションモジュールを近距離モジュールと遠距離モジュールに分割し、計算負荷を低減させるだけでなく、小規模と大規模両方の特徴をトークンに保持する。
さらに,クロスフォーマの実験を通じて,視覚トランスフォーマーの性能に影響を及ぼす2つの問題,すなわち拡大自着写像と振幅爆発を観察した。
そこで我々は,2つの問題を緩和するために,プログレッシブグループサイズ(PGS)パラダイムと振幅冷却層(ACL)パラダイムを提案する。
PGSとACLを統合したCrossFormerはCrossFormer++と呼ばれる。
大規模な実験では、CrossFormer++はイメージ分類、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションタスクにおいて、他のビジョントランスフォーマーよりも優れていた。
コードは、https://github.com/cheerss/CrossFormer.comで入手できる。
関連論文リスト
- Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention [5.045944819606334]
Multi-Stage Cross-Scale Attention (MSCSA)モジュールは、異なるステージからフィーチャーマップを取り込み、マルチステージインタラクションを実現する。
MSCSAは、控えめなFLOPとランタイムで大幅なパフォーマンス向上を提供する。
論文 参考訳(メタデータ) (2023-08-10T22:57:31Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - Multimodal Fusion Transformer for Remote Sensing Image Classification [35.57881383390397]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、期待できる性能のため、画像分類タスクにおいてトレンドとなっている。
CNNに近い満足なパフォーマンスを達成するために、トランスフォーマーはより少ないパラメータを必要とする。
HSI土地被覆分類のためのマルチヘッドクロスパッチアテンション(mCrossPA)を含む新しいマルチモーダルフュージョントランス (MFT) ネットワークを導入する。
論文 参考訳(メタデータ) (2022-03-31T11:18:41Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - CrossFormer: A Versatile Vision Transformer Based on Cross-scale
Attention [37.39327010226153]
クロススケールな埋め込み層(CEL)と長短距離注意(LSDA)を提案する。
CELは各埋め込みを異なるスケールの複数のパッチでブレンドし、モデルにクロススケールな埋め込みを提供する。
LSDAは自己保持モジュールを短距離で長距離のモジュールに分割し、コストを下げるが、小さな機能と大規模な機能の両方を埋め込みに保持する。
論文 参考訳(メタデータ) (2021-07-31T05:52:21Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。