論文の概要: Semantic Disentangling Generalized Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2101.07978v2
- Date: Wed, 27 Jan 2021 02:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:24:50.562131
- Title: Semantic Disentangling Generalized Zero-Shot Learning
- Title(参考訳): 意味的遠近法一般化ゼロショット学習
- Authors: Zhi Chen, Ruihong Qiu, Sen Wang, Zi Huang, Jingjing Li, Zheng Zhang
- Abstract要約: Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
- 参考スコア(独自算出の注目度): 50.259058462272435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Zero-Shot Learning (GZSL) aims to recognize images from both seen
and unseen categories. Most GZSL methods typically learn to synthesize CNN
visual features for the unseen classes by leveraging entire semantic
information, e.g., tags and attributes, and the visual features of the seen
classes. Within the visual features, we define two types of features that
semantic-consistent and semantic-unrelated to represent the characteristics of
images annotated in attributes and less informative features of images
respectively. Ideally, the semantic-unrelated information is impossible to
transfer by semantic-visual relationship from seen classes to unseen classes,
as the corresponding characteristics are not annotated in the semantic
information. Thus, the foundation of the visual feature synthesis is not always
solid as the features of the seen classes may involve semantic-unrelated
information that could interfere with the alignment between semantic and visual
modalities. To address this issue, in this paper, we propose a novel feature
disentangling approach based on an encoder-decoder architecture to factorize
visual features of images into these two latent feature spaces to extract
corresponding representations. Furthermore, a relation module is incorporated
into this architecture to learn semantic-visual relationship, whilst a total
correlation penalty is applied to encourage the disentanglement of two latent
representations. The proposed model aims to distill quality semantic-consistent
representations that capture intrinsic features of seen images, which are
further taken as the generation target for unseen classes. Extensive
experiments conducted on seven GZSL benchmark datasets have verified the
state-of-the-art performance of the proposal.
- Abstract(参考訳): Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
ほとんどのGZSLメソッドは、通常、見えないクラスのCNN視覚的特徴を、タグや属性などの意味情報全体と、見たクラスの視覚的特徴を活用することで、合成することを学習する。
視覚的特徴の中では,属性にアノテートされた画像の特徴を表現するために,意味的一貫性と意味的無関係な特徴をそれぞれ定義する。
理想的には、セマンティクス関連情報は、対応する特性がセマンティクス情報にアノテートされていないため、見たクラスから見えないクラスにセマンティクス・ビジュアル関係で転送することは不可能である。
したがって、視覚的特徴合成の基礎は必ずしも固いものではなく、そのクラスの特徴は意味的と視覚的モダリティの整合に干渉する可能性のある意味的非関連情報を含む可能性がある。
本稿では,画像の視覚的特徴をこれら2つの潜在特徴空間に分解し,対応する表現を抽出するために,エンコーダ・デコーダアーキテクチャに基づく特徴抽出手法を提案する。
さらに、このアーキテクチャに関係モジュールを組み込んで意味と視覚の関係を学習し、2つの潜在表現の絡み合いを促進するために、全相関ペナルティを適用する。
提案手法は, 未確認クラスの生成対象として, 画像の内在的特徴を捉えた質的意味一貫性表現を抽出することを目的としている。
7つのGZSLベンチマークデータセットで実施された大規模な実験により、提案の最先端性能が検証された。
関連論文リスト
- Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Learning Invariant Visual Representations for Compositional Zero-Shot
Learning [30.472541551048508]
合成ゼロショット学習 (CZSL) は,目に見える対象の合成から学習した知識を用いて,新しい構成を認識することを目的としている。
本稿では,異なる領域を表現レベルと勾配レベルで整列させる不変な特徴学習フレームワークを提案する。
2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-01T11:33:33Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Semantic Feature Extraction for Generalized Zero-shot Learning [23.53412767106488]
一般化ゼロショット学習(英: Generalized zero-shot learning, GZSL)は、学習モデルに属性を使って未知のクラスを特定する手法である。
本稿では,GZSL分類性能を大幅に向上させる新しいGZSL手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T09:52:30Z) - Transductive Zero-Shot Learning by Decoupled Feature Generation [30.664199050468472]
本稿では,未確認のクラスからの未表示の視覚データを利用できるトランスダクティブ・セッティングに着目する。
本稿では,現実的な視覚的特徴を生成し,意味的属性を視覚的手がかりに変換するタスクを分離することを提案する。
本研究は,提案手法の有効性を解明する上で,関連する最先端技術に対する優位性を実証するための詳細なアブレーション研究である。
論文 参考訳(メタデータ) (2021-02-05T16:17:52Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。