論文の概要: An Integral Projection-based Semantic Autoencoder for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2306.14628v1
- Date: Mon, 26 Jun 2023 12:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 13:47:03.276825
- Title: An Integral Projection-based Semantic Autoencoder for Zero-Shot Learning
- Title(参考訳): ゼロショット学習のための積分投影型セマンティックオートエンコーダ
- Authors: William Heyden, Habib Ullah, M. Salman Siddiqui, Fadi Al Machot
- Abstract要約: ゼロショット学習(ZSL)分類は、トレーニングセットに含まれないクラス(ラベル)を分類または予測する(見えないクラス)。
近年の研究では、エンコーダが視覚的特徴空間をセマンティック空間に埋め込み、デコーダが元の視覚的特徴空間を再構成する、異なる意味的オートエンコーダ(SAE)モデルが提案されている。
本稿では,意味空間でベクトル化された視覚的特徴空間を潜在表現空間に投影する統合投影型セマンティックオートエンコーダ(IP-SAE)を提案する。
- 参考スコア(独自算出の注目度): 0.46644955105516456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Learning (ZSL) classification categorizes or predicts classes
(labels) that are not included in the training set (unseen classes). Recent
works proposed different semantic autoencoder (SAE) models where the encoder
embeds a visual feature vector space into the semantic space and the decoder
reconstructs the original visual feature space. The objective is to learn the
embedding by leveraging a source data distribution, which can be applied
effectively to a different but related target data distribution. Such
embedding-based methods are prone to domain shift problems and are vulnerable
to biases. We propose an integral projection-based semantic autoencoder
(IP-SAE) where an encoder projects a visual feature space concatenated with the
semantic space into a latent representation space. We force the decoder to
reconstruct the visual-semantic data space. Due to this constraint, the
visual-semantic projection function preserves the discriminatory data included
inside the original visual feature space. The enriched projection forces a more
precise reconstitution of the visual feature space invariant to the domain
manifold. Consequently, the learned projection function is less domain-specific
and alleviates the domain shift problem. Our proposed IP-SAE model consolidates
a symmetric transformation function for embedding and projection, and thus, it
provides transparency for interpreting generative applications in ZSL.
Therefore, in addition to outperforming state-of-the-art methods considering
four benchmark datasets, our analytical approach allows us to investigate
distinct characteristics of generative-based methods in the unique context of
zero-shot inference.
- Abstract(参考訳): ゼロショット学習(ZSL)分類は、トレーニングセット(見えないクラス)に含まれていないクラス(ラベル)を分類または予測する。
最近の研究では、異なるセマンティックオートエンコーダ(sae)モデルを提案しており、エンコーダは視覚特徴ベクトル空間を意味空間に埋め込み、デコーダは元の視覚特徴空間を再構築する。
目的は、異なるが関連するターゲットデータ分布に効果的に適用可能な、ソースデータ分布を活用することで埋め込みを学習することである。
このような埋め込みベースのメソッドはドメインシフト問題を起こしやすく、バイアスに弱い。
本稿では,意味空間と連結した視覚的特徴空間を潜在表現空間に投影する統合投影型セマンティックオートエンコーダ(IP-SAE)を提案する。
我々はデコーダに視覚意味データ空間の再構築を強制する。
この制約により、視覚意味投影関数は、元の視覚特徴空間に含まれる識別データを保存する。
リッチ射影は、領域多様体に不変な視覚的特徴空間をより正確に再構成する。
その結果、学習された射影関数はドメイン固有性が低く、ドメインシフト問題を緩和する。
提案するIP-SAEモデルは,埋め込みおよび投影のための対称変換関数を統合し,ZSLにおける生成的応用を透過的に解釈する。
したがって,4つのベンチマークデータセットを考慮した最先端手法を上回ることに加えて,ゼロショット推論のユニークな文脈で生成型法の特徴を解析的に検討できる。
関連論文リスト
- SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。
基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。
提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文 参考訳(メタデータ) (2021-06-01T02:17:36Z) - Zero-Shot Learning from Adversarial Feature Residual to Compact Visual
Feature [26.89763840782029]
ゼロショット学習(ZSL)のためのコンパクトなセマンティックな視覚特徴を合成する新しい対向ネットワークを提案する。
残差発生器は、プロトタイプ予測器を介して予測される視覚的プロトタイプと統合された視覚的特徴残差を生成する。
判別器は、既存の分類CNNから抽出された実物と合成視覚特徴を区別する。
論文 参考訳(メタデータ) (2020-08-29T11:16:11Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Generative Model-driven Structure Aligning Discriminative Embeddings for
Transductive Zero-shot Learning [21.181715602603436]
本稿では、潜在空間における視覚的および意味的なデータを整列する投影関数を学習するためのニューラルネットワークに基づくモデルを提案する。
AWA1, AWA2, CUB, SUN, FLOなどの標準ベンチマークデータセットにおいて, 優れた性能を示す。
また,ラベル付きデータ構造が極めて少ない場合においても,モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-05-09T18:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。