論文の概要: GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning
- arxiv url: http://arxiv.org/abs/2309.00923v2
- Date: Thu, 14 Sep 2023 14:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 18:08:56.043109
- Title: GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning
- Title(参考訳): GBE-MLZSL:マルチラベルゼロショット学習のためのグループバイエンハンスメントフレームワーク
- Authors: Ziming Liu, Jingcai Guo, Xiaocheng Lu, Song Guo, Peiran Dong, Jiewei
Zhang
- Abstract要約: マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
- 参考スコア(独自算出の注目度): 24.075034737719776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates a challenging problem of zero-shot learning in the
multi-label scenario (MLZSL), wherein, the model is trained to recognize
multiple unseen classes within a sample (e.g., an image) based on seen classes
and auxiliary knowledge, e.g., semantic information. Existing methods usually
resort to analyzing the relationship of various seen classes residing in a
sample from the dimension of spatial or semantic characteristics, and transfer
the learned model to unseen ones. But they ignore the effective integration of
local and global features. That is, in the process of inferring unseen classes,
global features represent the principal direction of the image in the feature
space, while local features should maintain uniqueness within a certain range.
This integrated neglect will make the model lose its grasp of the main
components of the image. Relying only on the local existence of seen classes
during the inference stage introduces unavoidable bias. In this paper, we
propose a novel and effective group bi-enhancement framework for MLZSL, dubbed
GBE-MLZSL, to fully make use of such properties and enable a more accurate and
robust visual-semantic projection. Specifically, we split the feature maps into
several feature groups, of which each feature group can be trained
independently with the Local Information Distinguishing Module (LID) to ensure
uniqueness. Meanwhile, a Global Enhancement Module (GEM) is designed to
preserve the principal direction. Besides, a static graph structure is designed
to construct the correlation of local features. Experiments on large-scale
MLZSL benchmark datasets NUS-WIDE and Open-Images-v4 demonstrate that the
proposed GBE-MLZSL outperforms other state-of-the-art methods with large
margins.
- Abstract(参考訳): 本稿では,MLZSL(Multi-label scenario)におけるゼロショット学習の難題について考察する。このモデルでは,見知らぬクラスと補助知識(セマンティック情報など)に基づいて,サンプル内の複数の未確認クラス(画像など)を認識できるように訓練されている。
既存の方法は、通常、空間的または意味的な特性の次元からサンプルに居住する様々なクラスの関係を分析し、学習したモデルを目に見えないクラスに転送する。
しかし、ローカル機能とグローバル機能の効果的な統合は無視する。
すなわち、未知のクラスを推論する過程で、グローバルな特徴は特徴空間における画像の主方向を表し、局所的な特徴は特定の範囲内で一意性を維持するべきである。
この統合的な無視により、モデルはイメージの主要コンポーネントの把握を失うことになる。
推論段階における授業の局所的な存在のみを考慮すれば、避けられないバイアスが生じる。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、これらの特性を完全に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
具体的には、特徴マップをいくつかの特徴グループに分割し、各特徴グループをローカル情報識別モジュール(LID)と独立してトレーニングし、特異性を保証する。
一方、グローバルエンハンスメントモジュール(GEM)は主方向を維持するように設計されている。
さらに、静的グラフ構造は、局所的な特徴の相関を構築するために設計されている。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験により、提案したGBE-MLZSLは、最先端の手法よりも大きなマージンを持つことを示した。
関連論文リスト
- `Eyes of a Hawk and Ears of a Fox': Part Prototype Network for Generalized Zero-Shot Learning [47.1040786932317]
一般化ゼロショット学習(GZSL)における現在のアプローチは、画像全体に対する単一のクラス属性ベクトル表現のみを考慮したベースモデル上に構築されている。
属性情報に敏感なVINVL(Pre-trained Vision-Language Detector)を用いて,地域特性を効率的に取得する。
学習された関数は、その領域の特徴を、クラス部分プロトタイプを構築するために使われる地域固有の属性アテンションにマップする。
論文 参考訳(メタデータ) (2024-04-12T18:37:00Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - FREE: Feature Refinement for Generalized Zero-Shot Learning [86.41074134041394]
汎用ゼロショット学習(GZSL)は、視覚-意味的領域ギャップと目に見えないバイアスの問題を克服するために多くの努力を払って、大きな進歩を遂げた。
既存のほとんどのメソッドはImageNetでトレーニングされた機能抽出モデルを直接使用しており、ImageNetとGZSLベンチマークのデータセット間のバイアスを無視している。
本稿では,この問題に対処するために,汎用ゼロショット学習(FREE)のための特徴改善という,シンプルで効果的なGZSL法を提案する。
論文 参考訳(メタデータ) (2021-07-29T08:11:01Z) - Remote Sensing Images Semantic Segmentation with General Remote Sensing
Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。
具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。
コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文 参考訳(メタデータ) (2021-06-20T03:03:40Z) - Attribute-Modulated Generative Meta Learning for Zero-Shot
Classification [52.64680991682722]
ゼロショット学習のためのAttribute-Modulated GenerAtive Meta-modelを提案する。
本モデルは属性対応変調ネットワークと属性対応生成ネットワークから構成される。
実験により,AMAZはZSLで3.8%,ZSLで5.1%改善し,ZSL設定を一般化した。
論文 参考訳(メタデータ) (2021-04-22T04:16:43Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。