論文の概要: SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization
- arxiv url: http://arxiv.org/abs/2208.14607v1
- Date: Wed, 31 Aug 2022 03:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:28:46.016939
- Title: SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization
- Title(参考訳): SIM-Trans:微細視覚分類のための構造情報モデリング変換器
- Authors: Hongbo Sun, Xiangteng He, Yuxin Peng
- Abstract要約: 本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
- 参考スコア(独自算出の注目度): 59.732036564862796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained visual categorization (FGVC) aims at recognizing objects from
similar subordinate categories, which is challenging and practical for human's
accurate automatic recognition needs. Most FGVC approaches focus on the
attention mechanism research for discriminative regions mining while neglecting
their interdependencies and composed holistic object structure, which are
essential for model's discriminative information localization and understanding
ability. To address the above limitations, we propose the Structure Information
Modeling Transformer (SIM-Trans) to incorporate object structure information
into transformer for enhancing discriminative representation learning to
contain both the appearance information and structure information.
Specifically, we encode the image into a sequence of patch tokens and build a
strong vision transformer framework with two well-designed modules: (i) the
structure information learning (SIL) module is proposed to mine the spatial
context relation of significant patches within the object extent with the help
of the transformer's self-attention weights, which is further injected into the
model for importing structure information; (ii) the multi-level feature
boosting (MFB) module is introduced to exploit the complementary of multi-level
features and contrastive learning among classes to enhance feature robustness
for accurate recognition. The proposed two modules are light-weighted and can
be plugged into any transformer network and trained end-to-end easily, which
only depends on the attention weights that come with the vision transformer
itself. Extensive experiments and analyses demonstrate that the proposed
SIM-Trans achieves state-of-the-art performance on fine-grained visual
categorization benchmarks. The code is available at
https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022.
- Abstract(参考訳): 細粒度視覚分類(FGVC)は、人間の正確な自動認識のニーズに対して困難かつ実用的な、類似の下位カテゴリから物体を認識することを目的としている。
多くのFGVCアプローチは、相互依存を無視しながら、識別領域のマイニングのための注意機構の研究に重点を置いており、モデルの識別情報ローカライゼーションと理解能力に不可欠な全体的対象構造を構成している。
上記の制約に対処するために,オブジェクト構造情報を変換器に組み込む構造情報モデリング変換器(SIM-Trans)を提案し,その外観情報と構造情報の両方を含む識別表現学習を強化する。
具体的には、イメージをパッチトークンのシーケンスにエンコードし、2つのよく設計されたモジュールで強力なビジョントランスフォーマーフレームワークを構築する。
(i)構造情報学習(sil)モジュールは、トランスの自己付着重みの助けを借りて、対象範囲内の重要なパッチの空間的文脈関係を発掘するために提案され、さらに構造情報をインポートするためのモデルに注入される。
(II)マルチレベル特徴増強(MFB)モジュールを導入し,マルチレベル特徴の相補性とクラス間のコントラスト学習を活用し,特徴の堅牢性を高める。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークに差し込むことができ、訓練されたエンドツーエンドを容易に行うことができる。
広汎な実験と解析により、SIM-Transは、きめ細かい視覚分類ベンチマークで最先端の性能を達成することを示した。
コードはhttps://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022で公開されている。
関連論文リスト
- Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - Improved EATFormer: A Vision Transformer for Medical Image Classification [0.0]
本稿では,ビジョントランスフォーマを用いた医用画像分類のための改良されたアルゴリズムベースのトランスフォーマアーキテクチャを提案する。
提案したEATFormerアーキテクチャは、畳み込みニューラルネットワークとビジョントランスフォーマーの長所を組み合わせたものだ。
Chest X-rayデータセットとKvasirデータセットの実験結果から,提案したEATFormerはベースラインモデルと比較して予測速度と精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-19T21:40:20Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。