論文の概要: Semantic-diversity transfer network for generalized zero-shot learning
via inner disagreement based OOD detector
- arxiv url: http://arxiv.org/abs/2203.09017v1
- Date: Thu, 17 Mar 2022 01:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:41:43.591386
- Title: Semantic-diversity transfer network for generalized zero-shot learning
via inner disagreement based OOD detector
- Title(参考訳): 内部不一致に基づくOOD検出器による一般化ゼロショット学習のための意味多様性伝達ネットワーク
- Authors: Bo Liu, Qiulei Dong, Zhanyi Hu
- Abstract要約: Zero-shot Learning (ZSL) は、見えないクラスからオブジェクトを認識することを目的としている。
既存の多くの作品における知識伝達は、1)広く使われている視覚的特徴がグローバルなものであるが、意味的属性と完全に一致していないという事実から、主に制限されている。
最初の2つの制約に対処するセマンティック・ダイバーシティ・トランスファー・ネットワーク(SetNet)を提案し、1)マルチアテンションアーキテクチャとダイバーシティ・レギュレータを提案し、セマンティック属性とより整合した複数の局所視覚特徴を学習し、2)幾何学的に多様な局所特徴を入力として取り込むプロジェクタアンサンブルを提案する。
- 参考スコア(独自算出の注目度): 26.89763840782029
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Zero-shot learning (ZSL) aims to recognize objects from unseen classes, where
the kernel problem is to transfer knowledge from seen classes to unseen classes
by establishing appropriate mappings between visual and semantic features. The
knowledge transfer in many existing works is limited mainly due to the facts
that 1) the widely used visual features are global ones but not totally
consistent with semantic attributes; 2) only one mapping is learned in existing
works, which is not able to effectively model diverse visual-semantic
relations; 3) the bias problem in the generalized ZSL (GZSL) could not be
effectively handled. In this paper, we propose two techniques to alleviate
these limitations. Firstly, we propose a Semantic-diversity transfer Network
(SetNet) addressing the first two limitations, where 1) a multiple-attention
architecture and a diversity regularizer are proposed to learn multiple local
visual features that are more consistent with semantic attributes and 2) a
projector ensemble that geometrically takes diverse local features as inputs is
proposed to model visual-semantic relations from diverse local perspectives.
Secondly, we propose an inner disagreement based domain detection module (ID3M)
for GZSL to alleviate the third limitation, which picks out unseen-class data
before class-level classification. Due to the absence of unseen-class data in
training stage, ID3M employs a novel self-contained training scheme and detects
out unseen-class data based on a designed inner disagreement criterion.
Experimental results on three public datasets demonstrate that the proposed
SetNet with the explored ID3M achieves a significant improvement against $30$
state-of-the-art methods.
- Abstract(参考訳): Zero-shot Learning (ZSL) は、視覚的特徴と意味的特徴の適切なマッピングを確立することで、見知らぬクラスから見つからないクラスに知識を伝達することである。
多くの現存する作品における知識伝達は、主に事実によって制限されている。
1) 広く使われている視覚機能はグローバルだが、意味属性と完全に一致していない。
2) 多様な視覚・感覚関係を効果的にモデル化できない既存の著作物では1つのマッピングしか学習できない。
3)一般化ZSL(GZSL)のバイアス問題は効果的に処理できない。
本稿では,これらの制約を緩和する2つの手法を提案する。
まず、最初の2つの制限に対処するセマンティック・ダイバーシティ・トランスファーネットワーク(SetNet)を提案する。
1)マルチアテンションアーキテクチャと多様性レギュレータを提案し,セマンティック属性とより整合した複数の局所的な視覚特徴を学習する。
2) 幾何的に様々な局所的特徴を入力として取り込むプロジェクタアンサンブルは, 多様な局所的視点から視覚・視覚関係をモデル化するために提案されている。
次に,GZSLにおける内部不一致に基づくドメイン検出モジュール(ID3M)を提案する。
トレーニング段階では未確認データがないため、ID3Mは新たな自己完結型トレーニングスキームを採用し、設計された内部不一致基準に基づいて未確認データを検出する。
3つの公開データセットの実験結果は、探索されたID3Mで提案されたSetNetが、30ドルの最先端メソッドに対して大幅に改善されていることを示している。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - GBE-MLZSL: A Group Bi-Enhancement Framework for Multi-Label Zero-Shot
Learning [24.075034737719776]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
本稿では、GBE-MLZSLと呼ばれるMLZSLのための新しい効果的なグループバイエンハンスメントフレームワークを提案し、それらの特性を十分に活用し、より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
大規模なMLZSLベンチマークデータセットであるNAS-WIDEとOpen-Images-v4の実験では、提案したGBE-MLZSLが、最先端の手法よりも大きなマージンを持つことを示した。
論文 参考訳(メタデータ) (2023-09-02T12:07:21Z) - A Task-aware Dual Similarity Network for Fine-grained Few-shot Learning [19.90385022248391]
TDSNet(Task-aware Dual similarity Network)は,グローバルな不変機能と識別的局所的詳細を探索する手法である。
TDSNetは、他の最先端アルゴリズムと比較することで、競争性能を達成する。
論文 参考訳(メタデータ) (2022-10-22T04:24:55Z) - Federated Zero-Shot Learning for Visual Recognition [55.65879596326147]
本稿では,Federated Zero-Shot Learning FedZSLフレームワークを提案する。
FedZSLは、エッジデバイス上の分散データから中心的なモデルを学ぶ。
FedZSLの有効性と堅牢性は、3つのゼロショットベンチマークデータセットで実施された広範な実験によって実証された。
論文 参考訳(メタデータ) (2022-09-05T14:49:34Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - UniVIP: A Unified Framework for Self-Supervised Visual Pre-training [50.87603616476038]
単一中心オブジェクトまたは非調和データセット上で,汎用的な視覚表現を学習するための,新しい自己教師型フレームワークを提案する。
大規模実験により、非高調波COCOで事前訓練されたUniVIPは、最先端の転送性能を実現することが示された。
また、ImageNetのような単一中心オブジェクトのデータセットを利用でき、線形探索において同じ事前学習エポックでBYOLを2.5%上回る。
論文 参考訳(メタデータ) (2022-03-14T10:04:04Z) - Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。
本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-20T17:56:47Z) - Zero-Shot Learning Based on Knowledge Sharing [0.0]
Zero-Shot Learning(ZSL)は、ごくわずかなトレーニングデータで分類問題を解決することを目的とした新しい研究です。
本稿では,意味的特徴の表現を充実させるために,知識共有(KS)を導入する。
KSをベースとして,実際の視覚特徴に非常に近い意味的特徴から擬似視覚特徴を生成するために,生成的対向ネットワークを適用した。
論文 参考訳(メタデータ) (2021-02-26T06:43:29Z) - Isometric Propagation Network for Generalized Zero-shot Learning [72.02404519815663]
一般的な戦略は、クラス属性の意味空間と、見たクラスとそのデータに基づいて画像の視覚空間とのマッピングを学ぶことである。
本稿では,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric propagation Network (IPN)を提案する。
IPNは3つの人気のあるゼロショット学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-03T12:45:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。