論文の概要: RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition
- arxiv url: http://arxiv.org/abs/2107.08192v1
- Date: Sat, 17 Jul 2021 06:22:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:02:29.141840
- Title: RAMS-Trans: Recurrent Attention Multi-scale Transformer forFine-grained
Image Recognition
- Title(参考訳): rams-trans:recurrent attention multi-scale transformer forfine-grained image recognition
- Authors: Yunqing Hu, Xuan Jin, Yin Zhang, Haiwen Hong, Jingfeng Zhang, Yuan He,
Hui Xue
- Abstract要約: 地域注意の局所化と増幅は重要な要素であり、畳み込みニューラルネットワーク(CNN)ベースのアプローチによって多くの研究がなされている。
本稿では,変圧器の自己注意を用いて識別領域の注意を学習する,繰り返し注意型マルチスケール変圧器(RAMS-Trans)を提案する。
- 参考スコア(独自算出の注目度): 26.090419694326823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In fine-grained image recognition (FGIR), the localization and amplification
of region attention is an important factor, which has been explored a lot by
convolutional neural networks (CNNs) based approaches. The recently developed
vision transformer (ViT) has achieved promising results on computer vision
tasks. Compared with CNNs, Image sequentialization is a brand new manner.
However, ViT is limited in its receptive field size and thus lacks local
attention like CNNs due to the fixed size of its patches, and is unable to
generate multi-scale features to learn discriminative region attention. To
facilitate the learning of discriminative region attention without box/part
annotations, we use the strength of the attention weights to measure the
importance of the patch tokens corresponding to the raw images. We propose the
recurrent attention multi-scale transformer (RAMS-Trans), which uses the
transformer's self-attention to recursively learn discriminative region
attention in a multi-scale manner. Specifically, at the core of our approach
lies the dynamic patch proposal module (DPPM) guided region amplification to
complete the integration of multi-scale image patches. The DPPM starts with the
full-size image patches and iteratively scales up the region attention to
generate new patches from global to local by the intensity of the attention
weights generated at each scale as an indicator. Our approach requires only the
attention weights that come with ViT itself and can be easily trained
end-to-end. Extensive experiments demonstrate that RAMS-Trans performs better
than concurrent works, in addition to efficient CNN models, achieving
state-of-the-art results on three benchmark datasets.
- Abstract(参考訳): きめ細かい画像認識(FGIR)では、領域の注意の局所化と増幅が重要であり、畳み込みニューラルネットワーク(CNN)に基づくアプローチによって多くの研究がなされている。
最近開発されたビジョントランス (ViT) はコンピュータビジョンタスクにおいて有望な結果を得た。
CNNと比較すると、画像シーケンシャル化はまったく新しい方法だ。
しかし、ViTは受容野の大きさに制限があり、パッチのサイズが固定されているためCNNのような局所的な注意を欠いているため、識別領域の注意を学習するためのマルチスケールの特徴を生成できない。
ボックス/パートアノテーションを使わずに識別領域の注意を学習しやすくするために,注目重みの強さを用いて,原画像に対応するパッチトークンの重要性を計測する。
本稿では,マルチスケール方式で再帰的領域注意を学習するために,トランスの自己アテンションを用いたリカレントアテンションマルチスケールトランス(rams-trans)を提案する。
具体的には,マルチスケールイメージパッチの統合を完結させるために,動的パッチ提案モジュール (dppm) による領域増幅を行う。
dppmは、フルサイズのイメージパッチから始まり、各スケールで生成された注意重みの強度を指標として、グローバルからローカルに新しいパッチを生成するために、地域注意を反復的にスケールアップする。
当社のアプローチでは,vit自体に付属する注意重みのみが必要で,エンドツーエンドのトレーニングも容易です。
広範な実験により、rams-transは、効率的なcnnモデルに加えて、並列処理よりも優れたパフォーマンスを示し、3つのベンチマークデータセットで最先端の結果を得る。
関連論文リスト
- TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Laplacian-Former: Overcoming the Limitations of Vision Transformers in
Local Texture Detection [3.784298636620067]
Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。
これらのモデルは、画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。
本稿では,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己注意マップを向上する新しい手法であるラプラシアン・フォーマーを提案する。
論文 参考訳(メタデータ) (2023-08-31T19:56:14Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Boosting Crowd Counting via Multifaceted Attention [109.89185492364386]
大規模なバリエーションは、しばしば群衆画像の中に存在する。
CNNの固定サイズ畳み込みカーネルも、最近の視覚変換器の固定サイズアテンションも、このような変動には対処できない。
局所空間関係符号化におけるトランスフォーマーモデルを改善するための多面的注意ネットワーク(MAN)を提案する。
論文 参考訳(メタデータ) (2022-03-05T01:36:43Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - TransFG: A Transformer Architecture for Fine-grained Recognition [27.76159820385425]
近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。
我々は、トランスの生の注意重みをすべて注意マップに統合する新しいトランスベースのフレームワークTransFGを提案します。
類似サブクラスの特徴表現間の距離をさらに拡大するために、コントラスト損失が適用される。
論文 参考訳(メタデータ) (2021-03-14T17:03:53Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。