論文の概要: CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification
- arxiv url: http://arxiv.org/abs/2103.14899v1
- Date: Sat, 27 Mar 2021 13:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:06:50.467852
- Title: CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification
- Title(参考訳): CrossViT:画像分類のためのクロスアテンションマルチスケール視覚変換器
- Authors: Chun-Fu Chen, Quanfu Fan, Rameswar Panda
- Abstract要約: 異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
- 参考スコア(独自算出の注目度): 17.709880544501758
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recently developed vision transformer (ViT) has achieved promising
results on image classification compared to convolutional neural networks.
Inspired by this, in this paper, we study how to learn multi-scale feature
representations in transformer models for image classification. To this end, we
propose a dual-branch transformer to combine image patches (i.e., tokens in a
transformer) of different sizes to produce stronger image features. Our
approach processes small-patch and large-patch tokens with two separate
branches of different computational complexity and these tokens are then fused
purely by attention multiple times to complement each other. Furthermore, to
reduce computation, we develop a simple yet effective token fusion module based
on cross attention, which uses a single token for each branch as a query to
exchange information with other branches. Our proposed cross-attention only
requires linear time for both computational and memory complexity instead of
quadratic time otherwise. Extensive experiments demonstrate that the proposed
approach performs better than or on par with several concurrent works on vision
transformer, in addition to efficient CNN models. For example, on the
ImageNet1K dataset, with some architectural changes, our approach outperforms
the recent DeiT by a large margin of 2\%
- Abstract(参考訳): 最近開発された視覚変換器(ViT)は畳み込みニューラルネットワークと比較して画像分類において有望な結果を得た。
そこで本稿では,画像分類のためのトランスフォーマモデルにおける多元的特徴表現の学習法について検討する。
そこで本研究では,異なるサイズの画像パッチ(すなわちトランスのトークン)を組み合わせて,より強力な画像特徴を生成する2分岐変換器を提案する。
提案手法では,計算複雑性の異なる2つの枝を分割して,小さなパッチと大きなパッチのトークンを処理し,これらのトークンを複数回注目して相互補完する。
さらに,クロスアテンションに基づく簡易かつ効果的なトークン融合モジュールを開発し,各ブランチに対する単一トークンをクエリとして使用し,他のブランチと情報を交換する。
提案手法は,2次時間ではなく,計算量とメモリ量の両方に線形時間を必要とする。
広範な実験により、提案手法は効率的なcnnモデルに加えて、視覚トランスフォーマーの複数の同時作業と同等か同等の性能を発揮することが証明された。
例えば、imagenet1kデータセットでは、いくつかのアーキテクチャ変更によって、最近のdeitを2対%という大きなマージンで上回っています。
関連論文リスト
- CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion [0.0]
コンボリューションとトランスフォーマーを組み合わせた,軽量なハイブリッドネットワークを提案する。
畳み込み経路から取得した局所応答とMFCAモジュールから取得したグローバル応答とを融合する。
実験により、我々の変種は、大規模データや低データレギュレーションでスクラッチからトレーニングしたとしても、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-07-09T08:47:13Z) - Perceiving Longer Sequences With Bi-Directional Cross-Attention Transformers [13.480259378415505]
BiXTは、計算コストとメモリ消費の観点から、入力サイズと線形にスケールする。
BiXTはPerceiverアーキテクチャにインスパイアされているが、反復的な注意を効率よく双方向のクロスアテンションモジュールに置き換える。
効率性とフルトランスフォーマーアーキテクチャの汎用性と性能を組み合わせることで、BiXTはより長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-02-19T13:38:15Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - CAT: Cross Attention in Vision Transformer [39.862909079452294]
クロスアテンション(Cross Attention)と呼ばれるトランスフォーマーにおける新しいアテンション機構を提案する。
画像全体ではなく、イメージパッチの内部に注意を置き、ローカル情報をキャプチャする。
我々は、他の視覚タスクのためのCAT(Cross Attention Transformer)と呼ばれる階層的なネットワークを構築します。
論文 参考訳(メタデータ) (2021-06-10T14:38:32Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Tokens-to-Token ViT: Training Vision Transformers from Scratch on
ImageNet [128.96032932640364]
視覚課題を解決するために,新しいTokens-To-Token Vision Transformer (T2T-ViT)を提案する。
T2T-ViTは、バニラViTのパラメータ数とMACを200%削減し、ImageNetでスクラッチからトレーニングすると2.5%以上の改善を実現している。
例えば、ResNet50に匹敵するサイズを持つT2T-ViTは、ImageNet上で80.7%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2021-01-28T13:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。