論文の概要: Semantic Feature Integration network for Fine-grained Visual
Classification
- arxiv url: http://arxiv.org/abs/2302.10275v1
- Date: Mon, 13 Feb 2023 07:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 14:25:10.412565
- Title: Semantic Feature Integration network for Fine-grained Visual
Classification
- Title(参考訳): きめ細かい視覚分類のための意味的特徴統合ネットワーク
- Authors: Hui Wang, Yueyang li, Haichi Luo
- Abstract要約: 本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
- 参考スコア(独自算出の注目度): 5.182627302449368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-Grained Visual Classification (FGVC) is known as a challenging task due
to subtle differences among subordinate categories. Many current FGVC
approaches focus on identifying and locating discriminative regions by using
the attention mechanism, but neglect the presence of unnecessary features that
hinder the understanding of object structure. These unnecessary features,
including 1) ambiguous parts resulting from the visual similarity in object
appearances and 2) noninformative parts (e.g., background noise), can have a
significant adverse impact on classification results. In this paper, we propose
the Semantic Feature Integration network (SFI-Net) to address the above
difficulties. By eliminating unnecessary features and reconstructing the
semantic relations among discriminative features, our SFI-Net has achieved
satisfying performance. The network consists of two modules: 1) the multi-level
feature filter (MFF) module is proposed to remove unnecessary features with
different receptive field, and then concatenate the preserved features on pixel
level for subsequent disposal; 2) the semantic information reconstitution (SIR)
module is presented to further establish semantic relations among
discriminative features obtained from the MFF module. These two modules are
carefully designed to be light-weighted and can be trained end-to-end in a
weakly-supervised way. Extensive experiments on four challenging fine-grained
benchmarks demonstrate that our proposed SFI-Net achieves the state-of-the-arts
performance. Especially, the classification accuracy of our model on
CUB-200-2011 and Stanford Dogs reaches 92.64% and 93.03%, respectively.
- Abstract(参考訳): 細粒度視覚分類(FGVC)は下位分類の微妙な違いから難しい課題として知られている。
多くのFGVCアプローチは、注意機構を用いて識別領域を特定し、位置を特定することに重点を置いているが、オブジェクト構造を理解するのを妨げる不要な特徴の存在を無視している。
これらの不要な特徴は
1)物体の外観と視覚的類似性から生じる曖昧な部分
2)非形式的部分(背景雑音など)は分類結果に重大な影響を及ぼす可能性がある。
本稿では,これらの課題に対処する意味的特徴統合ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
ネットワークは2つのモジュールで構成される。
1) マルチレベル特徴フィルタ (MFF) モジュールは, 異なる受容領域を持つ不要な特徴を除去し, その後の処理のために画素レベルの保存特徴を連結する。
2) 意味情報再構成(SIR)モジュールを提示し、MFFモジュールから得られる識別的特徴間の意味関係をさらに確立する。
これら2つのモジュールは慎重に設計されており、軽量に設計されており、教師の弱い方法でエンドツーエンドで訓練することができる。
提案したSFI-Netが最先端の性能を達成できることを示す。
特に,cub-200-2011およびスタンフォード犬におけるモデルの分類精度は,それぞれ92.64%,93.03%に達した。
関連論文リスト
- Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization [30.92656780805478]
細粒度視覚分類のための弱教師付き文脈意味品質認識ネットワーク(CSQA-Net)を提案する。
リッチな部分記述子とグローバルセマンティクスの空間的関係をモデル化するため,我々は新しい多部・多スケールクロスアテンション(MPMSCA)モジュールを開発した。
また、バックボーンネットワークの異なるレベルからの階層的セマンティクスを段階的に監視し、強化する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
論文 参考訳(メタデータ) (2024-03-15T13:40:44Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Local Similarity Pattern and Cost Self-Reassembling for Deep Stereo
Matching Networks [3.7384509727711923]
LSP(Local similarity Pattern)という,深層ステレオマッチングネットワークのためのペア機能を導入する。
隣接する関係を明確に明らかにすることで、LSPはより識別的な特徴記述を支援するために活用できる豊富な構造情報を含んでいる。
第2に,動的自己組み換え改良戦略を設計し,コスト分布と分散マップにそれぞれ適用する。
論文 参考訳(メタデータ) (2021-12-02T06:52:54Z) - A^2-FPN: Attention Aggregation based Feature Pyramid Network for
Instance Segmentation [68.10621089649486]
アテンションアグリゲーションに基づく機能ピラミッドネットワーク(A2-FPN)を提案し、マルチスケール機能学習を改善します。
A2-FPNは、Cascade Mask R-CNNやHybrid Task Cascadeといった強力なベースラインに統合された場合、2.0%と1.4%のマスクAPを改善する。
論文 参考訳(メタデータ) (2021-05-07T11:51:08Z) - CARAFE++: Unified Content-Aware ReAssembly of FEatures [132.49582482421246]
この目標を達成するために、ユニバーサルで軽量で高効率なオペレータであるContent-Aware ReAssembly of FEatures(CARAFE++)を提案します。
CARAFE++は、インスタンス固有のコンテンツ認識処理を可能にするアダプティブカーネルをオンザフライで生成する。
計算のオーバーヘッドが無視できるすべてのタスクにおいて、一貫性と実質的な利益を示しています。
論文 参考訳(メタデータ) (2020-12-07T07:34:57Z) - Attention-guided Context Feature Pyramid Network for Object Detection [10.30536638944019]
私たちはAttention-guided Context Feature Pyramid Network (AC-FPN)と呼ばれる新しいアーキテクチャを構築します。
AC-FPNは、注意誘導型マルチパス機能を統合することにより、様々な大きな受容領域からの識別情報を利用する。
我々のAC-FPNは既存のFPNベースのモデルに簡単に接続できる。
論文 参考訳(メタデータ) (2020-05-23T05:24:50Z) - Unsupervised segmentation via semantic-apparent feature fusion [21.75371777263847]
本研究では,意味親和性特徴融合(SAFF)に基づく教師なし前景セグメンテーション手法を提案する。
前景オブジェクトのキー領域はセマンティック機能によって正確に応答できる。
意味的特徴と明らかな特徴を融合させ、画像内適応的特徴量学習と画像間共通特徴学習のモジュールをカスケードすることにより、ベースラインをはるかに超える性能を達成する。
論文 参考訳(メタデータ) (2020-05-21T08:28:49Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。