論文の概要: Discriminative Region-based Multi-Label Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2108.09301v1
- Date: Fri, 20 Aug 2021 17:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-23 13:23:02.270887
- Title: Discriminative Region-based Multi-Label Zero-Shot Learning
- Title(参考訳): 識別領域に基づくマルチラベルゼロショット学習
- Authors: Sanath Narayan, Akshita Gupta, Salman Khan, Fahad Shahbaz Khan, Ling
Shao, Mubarak Shah
- Abstract要約: マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
- 参考スコア(独自算出の注目度): 145.0952336375342
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-label zero-shot learning (ZSL) is a more realistic counter-part of
standard single-label ZSL since several objects can co-exist in a natural
image. However, the occurrence of multiple objects complicates the reasoning
and requires region-specific processing of visual features to preserve their
contextual cues. We note that the best existing multi-label ZSL method takes a
shared approach towards attending to region features with a common set of
attention maps for all the classes. Such shared maps lead to diffused
attention, which does not discriminatively focus on relevant locations when the
number of classes are large. Moreover, mapping spatially-pooled visual features
to the class semantics leads to inter-class feature entanglement, thus
hampering the classification. Here, we propose an alternate approach towards
region-based discriminability-preserving multi-label zero-shot classification.
Our approach maintains the spatial resolution to preserve region-level
characteristics and utilizes a bi-level attention module (BiAM) to enrich the
features by incorporating both region and scene context information. The
enriched region-level features are then mapped to the class semantics and only
their class predictions are spatially pooled to obtain image-level predictions,
thereby keeping the multi-class features disentangled. Our approach sets a new
state of the art on two large-scale multi-label zero-shot benchmarks: NUS-WIDE
and Open Images. On NUS-WIDE, our approach achieves an absolute gain of 6.9%
mAP for ZSL, compared to the best published results.
- Abstract(参考訳): マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、複数のオブジェクトが自然画像に共存できるため、標準のシングルラベルZSLのより現実的な対位法である。
しかし、複数のオブジェクトの出現は推論を複雑にし、視覚的特徴の領域固有の処理を必要とする。
既存のマルチラベルZSL手法では,すべてのクラスに共通する注目マップを用いて,地域機能への参加に向けた共通アプローチを採っている。
このような共有マップは、クラス数が大きければ関連する場所を差別的に重視しない、拡散した注意を導く。
さらに、空間的にプールされた視覚的特徴をクラスセマンティクスにマッピングすると、クラス間の特徴の絡み合いが生じ、分類が妨げられる。
本稿では,地域別識別可能性保存型マルチラベルゼロショット分類への代替アプローチを提案する。
本手法では,領域レベルの特徴を保存する空間分解能を維持し,bi-level attention module (biam) を用いて地域情報とシーンコンテキスト情報の両方を組み込むことにより,特徴を豊かにする。
拡張された領域レベルの特徴をクラスセマンティクスにマッピングし、それらのクラス予測のみを空間的にプールして画像レベルの予測を得る。
提案手法は, NUS-WIDE と Open Images の2つの大規模マルチラベルゼロショットベンチマークに新たな技術状況を設定する。
NUS-WIDE では,ZSL の絶対値が 6.9% mAP となる。
関連論文リスト
- `Eyes of a Hawk and Ears of a Fox': Part Prototype Network for Generalized Zero-Shot Learning [47.1040786932317]
一般化ゼロショット学習(GZSL)における現在のアプローチは、画像全体に対する単一のクラス属性ベクトル表現のみを考慮したベースモデル上に構築されている。
属性情報に敏感なVINVL(Pre-trained Vision-Language Detector)を用いて,地域特性を効率的に取得する。
学習された関数は、その領域の特徴を、クラス部分プロトタイプを構築するために使われる地域固有の属性アテンションにマップする。
論文 参考訳(メタデータ) (2024-04-12T18:37:00Z) - Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene
Classification [26.340737217001497]
ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。
以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。
本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
論文 参考訳(メタデータ) (2024-02-03T09:18:49Z) - GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - Region Semantically Aligned Network for Zero-Shot Learning [18.18665627472823]
本研究では、未確認クラスの局所的特徴をそれらの意味属性にマッピングする地域意味ネットワーク(RSAN)を提案する。
出力の特定の領域から各属性を取得し、これらの属性を認識に活用する。
いくつかの標準ZSLデータセットの実験では、提案したRSAN法の利点が示され、最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-10-14T03:23:40Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Isometric Propagation Network for Generalized Zero-shot Learning [72.02404519815663]
一般的な戦略は、クラス属性の意味空間と、見たクラスとそのデータに基づいて画像の視覚空間とのマッピングを学ぶことである。
本稿では,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric propagation Network (IPN)を提案する。
IPNは3つの人気のあるゼロショット学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-03T12:45:38Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。