論文の概要: Semantic Disentangling Generalized Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2101.07978v2
- Date: Wed, 27 Jan 2021 02:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:24:50.562131
- Title: Semantic Disentangling Generalized Zero-Shot Learning
- Title(参考訳): 意味的遠近法一般化ゼロショット学習
- Authors: Zhi Chen, Ruihong Qiu, Sen Wang, Zi Huang, Jingjing Li, Zheng Zhang
- Abstract要約: Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
- 参考スコア(独自算出の注目度): 50.259058462272435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalized Zero-Shot Learning (GZSL) aims to recognize images from both seen
and unseen categories. Most GZSL methods typically learn to synthesize CNN
visual features for the unseen classes by leveraging entire semantic
information, e.g., tags and attributes, and the visual features of the seen
classes. Within the visual features, we define two types of features that
semantic-consistent and semantic-unrelated to represent the characteristics of
images annotated in attributes and less informative features of images
respectively. Ideally, the semantic-unrelated information is impossible to
transfer by semantic-visual relationship from seen classes to unseen classes,
as the corresponding characteristics are not annotated in the semantic
information. Thus, the foundation of the visual feature synthesis is not always
solid as the features of the seen classes may involve semantic-unrelated
information that could interfere with the alignment between semantic and visual
modalities. To address this issue, in this paper, we propose a novel feature
disentangling approach based on an encoder-decoder architecture to factorize
visual features of images into these two latent feature spaces to extract
corresponding representations. Furthermore, a relation module is incorporated
into this architecture to learn semantic-visual relationship, whilst a total
correlation penalty is applied to encourage the disentanglement of two latent
representations. The proposed model aims to distill quality semantic-consistent
representations that capture intrinsic features of seen images, which are
further taken as the generation target for unseen classes. Extensive
experiments conducted on seven GZSL benchmark datasets have verified the
state-of-the-art performance of the proposal.
- Abstract(参考訳): Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
ほとんどのGZSLメソッドは、通常、見えないクラスのCNN視覚的特徴を、タグや属性などの意味情報全体と、見たクラスの視覚的特徴を活用することで、合成することを学習する。
視覚的特徴の中では,属性にアノテートされた画像の特徴を表現するために,意味的一貫性と意味的無関係な特徴をそれぞれ定義する。
理想的には、セマンティクス関連情報は、対応する特性がセマンティクス情報にアノテートされていないため、見たクラスから見えないクラスにセマンティクス・ビジュアル関係で転送することは不可能である。
したがって、視覚的特徴合成の基礎は必ずしも固いものではなく、そのクラスの特徴は意味的と視覚的モダリティの整合に干渉する可能性のある意味的非関連情報を含む可能性がある。
本稿では,画像の視覚的特徴をこれら2つの潜在特徴空間に分解し,対応する表現を抽出するために,エンコーダ・デコーダアーキテクチャに基づく特徴抽出手法を提案する。
さらに、このアーキテクチャに関係モジュールを組み込んで意味と視覚の関係を学習し、2つの潜在表現の絡み合いを促進するために、全相関ペナルティを適用する。
提案手法は, 未確認クラスの生成対象として, 画像の内在的特徴を捉えた質的意味一貫性表現を抽出することを目的としている。
7つのGZSLベンチマークデータセットで実施された大規模な実験により、提案の最先端性能が検証された。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Learning Invariant Visual Representations for Compositional Zero-Shot
Learning [30.472541551048508]
合成ゼロショット学習 (CZSL) は,目に見える対象の合成から学習した知識を用いて,新しい構成を認識することを目的としている。
本稿では,異なる領域を表現レベルと勾配レベルで整列させる不変な特徴学習フレームワークを提案する。
2つのCZSLベンチマーク実験により,提案手法が従来の最先端技術よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-06-01T11:33:33Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Semantic Feature Extraction for Generalized Zero-shot Learning [23.53412767106488]
一般化ゼロショット学習(英: Generalized zero-shot learning, GZSL)は、学習モデルに属性を使って未知のクラスを特定する手法である。
本稿では,GZSL分類性能を大幅に向上させる新しいGZSL手法を提案する。
論文 参考訳(メタデータ) (2021-12-29T09:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。