論文の概要: Contextual Transformer Networks for Visual Recognition
- arxiv url: http://arxiv.org/abs/2107.12292v1
- Date: Mon, 26 Jul 2021 16:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-27 16:26:47.495068
- Title: Contextual Transformer Networks for Visual Recognition
- Title(参考訳): 視覚認識のためのコンテクストトランスフォーマーネットワーク
- Authors: Yehao Li and Ting Yao and Yingwei Pan and Tao Mei
- Abstract要約: 視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。
このような設計は、動的注意行列の学習を導くために入力キー間のコンテキスト情報を完全に活用する。
私たちのCoTブロックは、ResNetアーキテクチャにおける3ドル3ドルの畳み込みを簡単に置き換えられるという視点で魅力的です。
- 参考スコア(独自算出の注目度): 103.79062359677452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer with self-attention has led to the revolutionizing of natural
language processing field, and recently inspires the emergence of
Transformer-style architecture design with competitive results in numerous
computer vision tasks. Nevertheless, most of existing designs directly employ
self-attention over a 2D feature map to obtain the attention matrix based on
pairs of isolated queries and keys at each spatial location, but leave the rich
contexts among neighbor keys under-exploited. In this work, we design a novel
Transformer-style module, i.e., Contextual Transformer (CoT) block, for visual
recognition. Such design fully capitalizes on the contextual information among
input keys to guide the learning of dynamic attention matrix and thus
strengthens the capacity of visual representation. Technically, CoT block first
contextually encodes input keys via a $3\times3$ convolution, leading to a
static contextual representation of inputs. We further concatenate the encoded
keys with input queries to learn the dynamic multi-head attention matrix
through two consecutive $1\times1$ convolutions. The learnt attention matrix is
multiplied by input values to achieve the dynamic contextual representation of
inputs. The fusion of the static and dynamic contextual representations are
finally taken as outputs. Our CoT block is appealing in the view that it can
readily replace each $3\times3$ convolution in ResNet architectures, yielding a
Transformer-style backbone named as Contextual Transformer Networks (CoTNet).
Through extensive experiments over a wide range of applications (e.g., image
recognition, object detection and instance segmentation), we validate the
superiority of CoTNet as a stronger backbone. Source code is available at
\url{https://github.com/JDAI-CV/CoTNet}.
- Abstract(参考訳): 自己着脱によるトランスフォーマーは自然言語処理分野の革新につながり、最近では多くのコンピュータビジョンタスクにおいて競争的な結果をもたらすトランスフォーマスタイルのアーキテクチャ設計の出現を刺激している。
それにもかかわらず、既存の設計の多くは2次元特徴マップ上で直接自己注意を用いて、それぞれの空間的位置における孤立したクエリとキーのペアに基づいてアテンション行列を取得するが、近隣のキーの間でリッチなコンテキストは未公開のまま残している。
本研究では,視覚認識のための新しいTransformerスタイルのモジュールであるContextual Transformer(CoT)ブロックを設計する。
このような設計は、入力キー間のコンテキスト情報を完全に活用し、動的注意行列の学習を誘導し、視覚表現の能力を強化する。
技術的には、CoTブロックは入力キーを$3\times3$畳み込みによって最初にコンテキスト的にエンコードし、入力の静的なコンテキスト表現に繋がる。
さらに、エンコードされたキーと入力クエリを結合し、2つの連続する1\times1$畳み込みを通じて動的多頭注意行列を学習する。
学習した注目行列は入力値に乗じて、入力の動的文脈表現を実現する。
静的および動的文脈表現の融合は最終的に出力として扱われる。
私たちのCoTブロックは、ResNetアーキテクチャの3ドル3ドルの畳み込みを簡単に置き換えることができ、Contextual Transformer Networks (CoTNet)という名前のTransformerスタイルのバックボーンが得られる、という視点で魅力的です。
幅広いアプリケーション(画像認識、オブジェクト検出、インスタンスセグメンテーションなど)に対する広範な実験を通じて、より強力なバックボーンとしてのCoTNetの優位性を検証する。
ソースコードは \url{https://github.com/JDAI-CV/CoTNet} で入手できる。
関連論文リスト
- Efficient Point Transformer with Dynamic Token Aggregating for Point Cloud Processing [19.73918716354272]
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
ModelNet40、ShapeNet、航空機搭載MultiSpectral LiDAR(MS-LiDAR)データセット上の前点変換器よりも最大30$times$高速でSOTAパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - High-Performance Transformers for Table Structure Recognition Need Early
Convolutions [25.04573593082671]
既存のアプローチでは、ビジュアルエンコーダには古典的畳み込みニューラルネットワーク(CNN)、テキストデコーダにはトランスフォーマーが使用されている。
表現力を犠牲にすることなくテーブル構造認識(TSR)のための軽量ビジュアルエンコーダを設計する。
畳み込みステムは従来のCNNバックボーンのパフォーマンスとより単純なモデルで一致できることが判明した。
論文 参考訳(メタデータ) (2023-11-09T18:20:52Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - ParCNetV2: Oversized Kernel with Enhanced Attention [60.141606180434195]
我々はParCNetV2という畳み込みニューラルネットワークアーキテクチャを導入する。
位置認識型円形畳み込み(ParCNet)を拡張し、大きめの畳み込みを施し、分岐ゲートユニットを通して注意を向ける。
提案手法は、CNNとトランスフォーマーをハイブリッド化するニューラルネットワークと同様に、他の純粋な畳み込みニューラルネットワークよりも優れている。
論文 参考訳(メタデータ) (2022-11-14T07:22:55Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。