論文の概要: Fine-Grained Visual Classification via Simultaneously Learning of
Multi-regional Multi-grained Features
- arxiv url: http://arxiv.org/abs/2102.00367v1
- Date: Sun, 31 Jan 2021 03:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 02:41:14.904212
- Title: Fine-Grained Visual Classification via Simultaneously Learning of
Multi-regional Multi-grained Features
- Title(参考訳): 多地域多粒特徴の同時学習による細粒度視覚分類
- Authors: Dongliang Chang, Yixiao Zheng, Zhanyu Ma, Ruoyi Du, Kongming Liang
- Abstract要約: きめ細かい視覚分類は、同じメタクラスに属するサブクラスを認識する難しいタスクである。
本稿では,マルチリージョンのマルチグラニュアルな特徴をマイニングすることが,この課題の鍵となることを論じる。
4つの画像分類データセットを用いた実験結果から,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 15.71408474557042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained visual classification is a challenging task that recognizes the
sub-classes belonging to the same meta-class. Large inter-class similarity and
intra-class variance is the main challenge of this task. Most exiting methods
try to solve this problem by designing complex model structures to explore more
minute and discriminative regions. In this paper, we argue that mining
multi-regional multi-grained features is precisely the key to this task.
Specifically, we introduce a new loss function, termed top-down spatial
attention loss (TDSA-Loss), which contains a multi-stage channel constrained
module and a top-down spatial attention module. The multi-stage channel
constrained module aims to make the feature channels in different stages
category-aligned. Meanwhile, the top-down spatial attention module uses the
attention map generated by high-level aligned feature channels to make
middle-level aligned feature channels to focus on particular regions. Finally,
we can obtain multiple discriminative regions on high-level feature channels
and obtain multiple more minute regions within these discriminative regions on
middle-level feature channels. In summary, we obtain multi-regional
multi-grained features. Experimental results over four widely used fine-grained
image classification datasets demonstrate the effectiveness of the proposed
method. Ablative studies further show the superiority of two modules in the
proposed method. Codes are available at:
https://github.com/dongliangchang/Top-Down-Spatial-Attention-Loss.
- Abstract(参考訳): きめ細かい視覚分類は、同じメタクラスに属するサブクラスを認識する難しいタスクである。
クラス間の大きな類似性とクラス内分散がこのタスクの主な課題である。
ほとんどの出口法は、より微細で差別的な領域を探索するために複雑なモデル構造を設計することでこの問題を解決しようとする。
本稿では,マルチリージョンの多粒度特徴のマイニングが,まさにこの課題の鍵であると主張する。
具体的には,マルチステージチャネル制約モジュールとトップダウンスペースアテンションモジュールを含む,top-down spatial attention loss(tdsa-loss)と呼ばれる新しいロス関数を導入する。
マルチステージチャネル制約モジュールは、異なるステージのフィーチャーチャネルをカテゴリ整列させることを目指しています。
一方、トップダウンスペースアテンションモジュールは、ハイレベルアライメント機能チャネルによって生成されたアテンションマップを使用して、中間レベルアライメント機能チャネルを特定の領域に集中させる。
最後に、高レベル特徴チャネル上の複数の識別領域を取得し、中レベル特徴チャネル上のこれらの識別領域内の複数の分領域を得ることができる。
まとめると、我々は多領域多粒性特徴を得る。
4つの画像分類データセットを用いた実験結果から,提案手法の有効性が示された。
Ablative study further showed the superiority of two module in the proposed method。
コードはhttps://github.com/dongliangchang/Top-Down-Spatial-Attention-Lossで入手できます。
関連論文リスト
- Task-Oriented Channel Attention for Fine-Grained Few-Shot Classification [5.4352987210173955]
Task Discrepancy Maximization (TDM) はタスク指向のチャネルアテンション手法であり、微粒な小ショット分類に適したものである。
QAMはクエリのオブジェクト関連チャネルにより高い重みを割り当てている。
これらのサブモジュールに基づいて、TDMは、クラス識別の詳細を符号化し、クエリが保持するチャネルに焦点を当て、タスク適応機能を生成する。
論文 参考訳(メタデータ) (2023-07-28T08:40:23Z) - Multi-spectral Class Center Network for Face Manipulation Detection and Localization [52.569170436393165]
顔の操作検出と局所化のための新しいマルチスペクトル・クラス・センター・ネットワーク(MSCCNet)を提案する。
周波数帯域の異なる特徴に基づき、MSCCモジュールはマルチスペクトルクラスセンターを収集し、ピクセル対クラス関係を計算する。
多スペクトルクラスレベルの表現を適用することで、偽画像の操作された領域に敏感な視覚概念の意味情報を抑えることができる。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z) - Multi-Scale Feature Fusion: Learning Better Semantic Segmentation for
Road Pothole Detection [9.356003255288417]
本稿では,単一モーダルなセマンティックセグメンテーションに基づく新しいポットホール検出手法を提案する。
まず、畳み込みニューラルネットワークを用いて入力画像から視覚的特徴を抽出する。
チャネルアテンションモジュールは、異なるフィーチャーマップの一貫性を高めるために、チャネル機能を再考する。
論文 参考訳(メタデータ) (2021-12-24T15:07:47Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z) - Attention Model Enhanced Network for Classification of Breast Cancer
Image [54.83246945407568]
AMENはマルチブランチ方式で、画素ワイドアテンションモデルとサブモジュールの分類で定式化される。
微妙な詳細情報に焦点を合わせるため、サンプル画像は、前枝から生成された画素対応の注目マップによって強化される。
3つのベンチマークデータセットで行った実験は、様々なシナリオにおいて提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2020-10-07T08:44:21Z) - Concentrated Multi-Grained Multi-Attention Network for Video Based
Person Re-Identification [5.761429719197307]
咬合はビデオベースのRe-ID(Re-ID)タスクにおいて依然として深刻な問題である。
集中型多粒性マルチアテンションネットワーク(CMMANet)を提案する。
論文 参考訳(メタデータ) (2020-09-28T02:18:06Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Multi-Task Learning via Co-Attentive Sharing for Pedestrian Attribute
Recognition [8.883961218702824]
Co-Attentive Sharing (CAS)モジュールは、マルチタスク学習においてより効果的な特徴共有のために、識別チャネルと空間領域を抽出する。
我々のモジュールは従来の共有ユニットよりも優れており、多くのメトリクスを用いた最先端の手法と比較して優れた結果が得られる。
論文 参考訳(メタデータ) (2020-04-07T07:24:22Z) - DFNet: Discriminative feature extraction and integration network for
salient object detection [6.959742268104327]
畳み込みニューラルネットワークを用いた唾液度検出における課題の2つの側面に焦点をあてる。
第一に、様々な大きさに有能な物体が現れるため、単一スケールの畳み込みは適切な大きさを捉えない。
第二に、マルチレベル機能の使用は、モデルがローカルコンテキストとグローバルコンテキストの両方を使用するのに役立つ。
論文 参考訳(メタデータ) (2020-04-03T13:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。