論文の概要: Part-guided Relational Transformers for Fine-grained Visual Recognition
- arxiv url: http://arxiv.org/abs/2212.13685v1
- Date: Wed, 28 Dec 2022 03:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:26:50.732897
- Title: Part-guided Relational Transformers for Fine-grained Visual Recognition
- Title(参考訳): 微粒な視覚認識のための部分誘導型リレーショナルトランス
- Authors: Yifan Zhao, Jia Li, Xiaowu Chen, Yonghong Tian
- Abstract要約: 識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
- 参考スコア(独自算出の注目度): 59.20531172172135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained visual recognition is to classify objects with visually similar
appearances into subcategories, which has made great progress with the
development of deep CNNs. However, handling subtle differences between
different subcategories still remains a challenge. In this paper, we propose to
solve this issue in one unified framework from two aspects, i.e., constructing
feature-level interrelationships, and capturing part-level discriminative
features. This framework, namely PArt-guided Relational Transformers (PART), is
proposed to learn the discriminative part features with an automatic part
discovery module, and to explore the intrinsic correlations with a feature
transformation module by adapting the Transformer models from the field of
natural language processing. The part discovery module efficiently discovers
the discriminative regions which are highly-corresponded to the gradient
descent procedure. Then the second feature transformation module builds
correlations within the global embedding and multiple part embedding, enhancing
spatial interactions among semantic pixels. Moreover, our proposed approach
does not rely on additional part branches in the inference time and reaches
state-of-the-art performance on 3 widely-used fine-grained object recognition
benchmarks. Experimental results and explainable visualizations demonstrate the
effectiveness of our proposed approach. The code can be found at
https://github.com/iCVTEAM/PART.
- Abstract(参考訳): きめ細かい視覚認識は、視覚的に類似した外観を持つオブジェクトをサブカテゴリに分類することであり、深層CNNの開発で大きな進歩を遂げている。
しかし、異なるサブカテゴリ間の微妙な差異を扱うことは依然として課題である。
本稿では,この問題を2つの側面,すなわち特徴レベルの相互関係の構築と,部分レベルの識別的特徴の獲得から解くことを提案する。
このフレームワークは、PArt-Guided Relational Transformer (PART) と呼ばれるもので、自動部分探索モジュールを用いて識別部分の特徴を学習し、自然言語処理の分野からTransformerモデルを適用することで特徴変換モジュールと固有の相関関係を探索する。
部分発見モジュールは、勾配降下手順に高度に対応する識別領域を効率よく発見する。
次に、第2の特徴変換モジュールは、グローバル埋め込みと複数部分埋め込みの相関関係を構築し、セマンティックピクセル間の空間的相互作用を強化する。
さらに,提案手法は推定時間に付加的な部分分岐を依存せず,広く使用されている3つのオブジェクト認識ベンチマーク上で最先端の性能に達する。
実験結果と説明可能な可視化は,提案手法の有効性を示す。
コードはhttps://github.com/icvteam/partにある。
関連論文リスト
- Semantic Feature Integration network for Fine-grained Visual
Classification [5.182627302449368]
本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
論文 参考訳(メタデータ) (2023-02-13T07:32:25Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Transforming the Interactive Segmentation for Medical Imaging [34.57242805353604]
本研究の目的は,人間のパフォーマンスに遅れる難易度の高い構造物の自動セグメンテーションをインタラクティブに洗練することである。
対話型(TIS)のための新しいトランスフォーマーアーキテクチャを提案する。
提案アーキテクチャはトランスフォーマーデコーダの変種で構成されており,アテンション機構と機能比較を自然に行う。
論文 参考訳(メタデータ) (2022-08-20T03:28:23Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - Feature Pyramid Transformer [121.50066435635118]
我々は、FPT(Feature Pyramid Transformer)と呼ばれる、空間とスケールの双方で完全にアクティブな特徴相互作用を提案する。
FPTは任意の特徴ピラミッドを同じ大きさの他の特徴ピラミッドに変換するが、よりリッチなコンテキストを持つ。
我々は、インスタンスレベル(オブジェクト検出とインスタンスセグメンテーション)とピクセルレベルのセグメンテーションタスクの両方で広範な実験を行う。
論文 参考訳(メタデータ) (2020-07-18T15:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。