論文の概要: Co-Scale Conv-Attentional Image Transformers
- arxiv url: http://arxiv.org/abs/2104.06399v1
- Date: Tue, 13 Apr 2021 17:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:36:29.668929
- Title: Co-Scale Conv-Attentional Image Transformers
- Title(参考訳): Co-Scale Conv-Attentional Image Transformer
- Authors: Weijian Xu, Yifan Xu, Tyler Chang, Zhuowen Tu
- Abstract要約: Co-scale conv-attentional image Transformers (CoaT) は、コスケールおよびconv-attentional mechanismを備えたTransformerベースの画像分類器である。
ImageNetでは、比較的小さなCoaTモデルは、同様のサイズの畳み込みニューラルネットワークや画像/画像変換器と比較して優れた分類結果を得る。
- 参考スコア(独自算出の注目度): 22.834316796018705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Co-scale conv-attentional image Transformers
(CoaT), a Transformer-based image classifier equipped with co-scale and
conv-attentional mechanisms. First, the co-scale mechanism maintains the
integrity of Transformers' encoder branches at individual scales, while
allowing representations learned at different scales to effectively communicate
with each other; we design a series of serial and parallel blocks to realize
the co-scale attention mechanism. Second, we devise a conv-attentional
mechanism by realizing a relative position embedding formulation in the
factorized attention module with an efficient convolution-like implementation.
CoaT empowers image Transformers with enriched multi-scale and contextual
modeling capabilities. On ImageNet, relatively small CoaT models attain
superior classification results compared with the similar-sized convolutional
neural networks and image/vision Transformers. The effectiveness of CoaT's
backbone is also illustrated on object detection and instance segmentation,
demonstrating its applicability to the downstream computer vision tasks.
- Abstract(参考訳): 本稿では,co-scale conv-attentional image transformers (coat)について述べる。
まず,トランスフォーマーのエンコーダブランチを個別のスケールで整合性を維持しつつ,異なるスケールで学習した表現を効果的に相互通信できるようにし,コスケールアテンション機構を実現するために,一連のシリアルブロックと並列ブロックを設計する。
第2に,効率的な畳み込み的な実装により,因子化アテンションモジュールにおける相対的位置埋め込み定式化を実現することで,畳み込み機構を考案する。
CoaTは、リッチなマルチスケールおよびコンテキストモデリング機能を備えたイメージトランスフォーマーを提供する。
imagenetでは、比較的小さなコートモデルが、類似した大きさの畳み込みニューラルネットワークや画像/画像トランスフォーマーに比べて優れた分類結果を得る。
coatのバックボーンの有効性はオブジェクト検出とインスタンスセグメンテーションにも示されており、下流のコンピュータビジョンタスクへの適用性を示している。
関連論文リスト
- Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Training Vision Transformers for Image Retrieval [32.09708181236154]
我々は、画像記述子を生成するために視覚変換器を採用し、結果のモデルをメートル法学習目標で訓練する。
コンボリューションに基づくアプローチよりも,トランスフォーマーの一貫性と顕著な改善が示された。
論文 参考訳(メタデータ) (2021-02-10T18:56:41Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。