論文の概要: Learning to Discover Multi-Class Attentional Regions for Multi-Label
Image Recognition
- arxiv url: http://arxiv.org/abs/2007.01755v3
- Date: Wed, 9 Jun 2021 08:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 05:47:38.750268
- Title: Learning to Discover Multi-Class Attentional Regions for Multi-Label
Image Recognition
- Title(参考訳): マルチラベル画像認識のための複数クラス注意領域の学習
- Authors: Bin-Bin Gao, Hong-Yu Zhou
- Abstract要約: 本稿では,グローバルイメージからローカル領域への多カテゴリオブジェクト認識のための,シンプルだが効率的な2ストリームフレームワークを提案する。
グローバルストリームとローカルストリームのギャップを埋めるために,マルチクラス注目領域モジュールを提案する。
提案手法は,パラメータフリー領域ローカライゼーションモジュールと安価な計算コストで,マルチクラスオブジェクトを効率よく,効果的に認識することができる。
- 参考スコア(独自算出の注目度): 20.2935275611948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label image recognition is a practical and challenging task compared to
single-label image classification. However, previous works may be suboptimal
because of a great number of object proposals or complex attentional region
generation modules. In this paper, we propose a simple but efficient two-stream
framework to recognize multi-category objects from global image to local
regions, similar to how human beings perceive objects. To bridge the gap
between global and local streams, we propose a multi-class attentional region
module which aims to make the number of attentional regions as small as
possible and keep the diversity of these regions as high as possible. Our
method can efficiently and effectively recognize multi-class objects with an
affordable computation cost and a parameter-free region localization module.
Over three benchmarks on multi-label image classification, we create new
state-of-the-art results with a single model only using image semantics without
label dependency. In addition, the effectiveness of the proposed method is
extensively demonstrated under different factors such as global pooling
strategy, input size and network architecture. Code has been made available
at~\url{https://github.com/gaobb/MCAR}.
- Abstract(参考訳): マルチラベル画像認識は,単一ラベル画像分類に比べて実用的かつ困難な課題である。
しかし、多くのオブジェクト提案や複雑な注意領域生成モジュールがあるため、以前の作業は最適ではないかもしれない。
本稿では,人間の知覚に類似した,多カテゴリーオブジェクトをグローバル画像から局所領域に認識するための,単純かつ効率的な2ストリームフレームワークを提案する。
グローバルストリームとローカルストリームのギャップを埋めるために,注意領域の数を可能な限り小さくし,これらの領域の多様性を可能な限り高く保つことを目的としたマルチクラス注意領域モジュールを提案する。
本手法は、安価な計算コストとパラメータフリー領域ローカライズモジュールにより、効率良く効果的にマルチクラスオブジェクトを認識できる。
マルチラベル画像分類に関する3つのベンチマークでは,ラベルに依存しないイメージセマンティクスのみを使用して,単一のモデルで新たな最先端結果を生成する。
また,提案手法の有効性は,グローバルプーリング戦略,入力サイズ,ネットワークアーキテクチャといった異なる要因の下で広く実証されている。
コードは~\url{https://github.com/gaobb/mcar}で利用可能である。
関連論文リスト
- R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。
生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Facing the Void: Overcoming Missing Data in Multi-View Imagery [0.783788180051711]
本稿では,この問題に頑健な多視点画像分類のための新しい手法を提案する。
提案手法は,最先端の深層学習とメートル法学習に基づいて,他のアプリケーションやドメインに容易に適応し,活用することができる。
その結果,提案アルゴリズムは,最先端手法と比較して,多視点画像分類精度の向上を図っている。
論文 参考訳(メタデータ) (2022-05-21T13:21:27Z) - Diverse Instance Discovery: Vision-Transformer for Instance-Aware
Multi-Label Image Recognition [24.406654146411682]
視覚変換器 (ViT) が研究基盤である。
私たちの目標は、ViTのパッチトークンとセルフアテンションメカニズムを活用して、リッチなインスタンスをマルチラベルイメージでマイニングすることにあります。
マルチスケールな局所的特徴を抽出するために、弱教師付きオブジェクトローカライゼーションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-22T14:38:40Z) - SATS: Self-Attention Transfer for Continual Semantic Segmentation [50.51525791240729]
連続的なセマンティックセグメンテーションは、連続的な分類学習と同じ破滅的な忘れの問題に悩まされる。
本研究では,各画像内の要素間の関係について,知識に関連する新しいタイプの情報伝達を提案する。
関係情報は、トランスフォーマースタイルのセグメンテーションモデルにおける自己アテンションマップから有効に得ることができる。
論文 参考訳(メタデータ) (2022-03-15T06:09:28Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - MFNet: Multi-class Few-shot Segmentation Network with Pixel-wise Metric
Learning [34.059257121606336]
この研究は、まだほとんど探索されていない分野である少数ショットセマンティックセマンティックセグメンテーションに焦点を当てている。
まず,マルチウェイ符号化とデコードアーキテクチャを提案する。このアーキテクチャは,マルチスケールクエリ情報とマルチクラスサポート情報を1つのクエリ支援埋め込みに効果的に融合する。
標準ベンチマーク PASCAL-5i と COCO-20i による実験により, 数発のセグメンテーションにおいて, 本手法の利点が明らかに示された。
論文 参考訳(メタデータ) (2021-10-30T11:37:36Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。