論文の概要: Vision Transformer with Quadrangle Attention
- arxiv url: http://arxiv.org/abs/2303.15105v1
- Date: Mon, 27 Mar 2023 11:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:52:29.454418
- Title: Vision Transformer with Quadrangle Attention
- Title(参考訳): 四角形注意付き視覚変圧器
- Authors: Qiming Zhang, Jing Zhang, Yufei Xu, Dacheng Tao
- Abstract要約: 窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
- 参考スコア(独自算出の注目度): 76.35955924137986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Window-based attention has become a popular choice in vision transformers due
to its superior performance, lower computational complexity, and less memory
footprint. However, the design of hand-crafted windows, which is data-agnostic,
constrains the flexibility of transformers to adapt to objects of varying
sizes, shapes, and orientations. To address this issue, we propose a novel
quadrangle attention (QA) method that extends the window-based attention to a
general quadrangle formulation. Our method employs an end-to-end learnable
quadrangle regression module that predicts a transformation matrix to transform
default windows into target quadrangles for token sampling and attention
calculation, enabling the network to model various targets with different
shapes and orientations and capture rich context information. We integrate QA
into plain and hierarchical vision transformers to create a new architecture
named QFormer, which offers minor code modifications and negligible extra
computational cost. Extensive experiments on public benchmarks demonstrate that
QFormer outperforms existing representative vision transformers on various
vision tasks, including classification, object detection, semantic
segmentation, and pose estimation. The code will be made publicly available at
\href{https://github.com/ViTAE-Transformer/QFormer}{QFormer}.
- Abstract(参考訳): ウィンドウベースの注意は、その優れた性能、計算複雑性の低下、メモリフットプリントの低下により、視覚トランスフォーマーにおいて一般的な選択となっている。
しかし、データに依存しない手作りウィンドウの設計は、トランスフォーマーの柔軟性を制約し、様々な大きさ、形状、方向のオブジェクトに適応させる。
この問題に対処するために、ウィンドウベースの注意を一般的な四角形に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,学習可能な学習可能な四角形回帰モジュールを用いて,デフォルトウィンドウからターゲット四角形への変換を予測し,トークンサンプリングとアテンション計算を行い,異なる形状と向きの様々なターゲットをモデル化し,リッチなコンテキスト情報を取得する。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
公開ベンチマークに関する広範囲な実験により、qformerは分類、オブジェクト検出、意味セグメンテーション、ポーズ推定を含む様々な視覚タスクにおいて、既存の代表的視覚トランスフォーマーよりも優れていることが示されている。
コードは \href{https://github.com/ViTAE-Transformer/QFormer}{QFormer} で公開される。
関連論文リスト
- NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator [1.3812010983144802]
このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。
コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers [63.41460219156508]
既存の位置符号化方式は3次元視覚タスクに最適であると主張する。
トークンの幾何学的構造を相対変換として符号化する幾何学的注意機構を提案する。
我々は、Geometric Transform Attention (GTA) と呼ばれる、最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させることに留意している。
論文 参考訳(メタデータ) (2023-10-16T13:16:09Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。