論文の概要: Learning Robust Visual-semantic Mapping for Zero-shot Learning
- arxiv url: http://arxiv.org/abs/2104.05668v1
- Date: Mon, 12 Apr 2021 17:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 14:04:14.868129
- Title: Learning Robust Visual-semantic Mapping for Zero-shot Learning
- Title(参考訳): ゼロショット学習のためのロバストなビジュアルセマンティクスマッピングの学習
- Authors: Jingcai Guo
- Abstract要約: ZSL(Zero-shot Learning)の重要な構成要素の1つである意味的特徴空間の完全強化に注力する。
ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。
このようなパラダイムでは、ZSLモデルはマッピング関数を構築および再利用する際にドメインシフトの問題に容易に苦しむ可能性がある。
- 参考スコア(独自算出の注目度): 8.299945169799795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning (ZSL) aims at recognizing unseen class examples (e.g.,
images) with knowledge transferred from seen classes. This is typically
achieved by exploiting a semantic feature space shared by both seen and unseen
classes, e.g., attributes or word vectors, as the bridge. In ZSL, the common
practice is to train a mapping function between the visual and semantic feature
spaces with labeled seen class examples. When inferring, given unseen class
examples, the learned mapping function is reused to them and recognizes the
class labels on some metrics among their semantic relations. However, the
visual and semantic feature spaces are generally independent and exist in
entirely different manifolds. Under such a paradigm, the ZSL models may easily
suffer from the domain shift problem when constructing and reusing the mapping
function, which becomes the major challenge in ZSL. In this thesis, we explore
effective ways to mitigate the domain shift problem and learn a robust mapping
function between the visual and semantic feature spaces. We focus on fully
empowering the semantic feature space, which is one of the key building blocks
of ZSL. In summary, this thesis targets fully empowering the semantic feature
space and design effective solutions to mitigate the domain shift problem and
hence obtain a more robust visual-semantic mapping function for ZSL. Extensive
experiments on various datasets demonstrate the effectiveness of our proposed
methods.
- Abstract(参考訳): ゼロショット学習(ZSL)は、目に見えないクラスの例(画像など)を、目に見えないクラスの知識で認識することを目的としている。
これは典型的には、見知らぬクラス、例えば属性やワードベクトルの両方で共有される意味的特徴空間をブリッジとして利用することによって達成される。
ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。
未知のクラスを推論すると、学習されたマッピング関数が再利用され、セマンティックな関係の中でいくつかのメトリクスのクラスラベルを認識する。
しかし、視覚的特徴空間と意味的特徴空間は一般に独立であり、全く異なる多様体に存在する。
このようなパラダイムの下で、ZSLモデルはマッピング関数の構築と再利用においてドメインシフトの問題に容易に悩まされ、ZSLの主要な課題となる。
本稿では、ドメインシフト問題を緩和し、視覚的特徴空間と意味的特徴空間の間のロバストマッピング関数を学習する効果的な方法を検討する。
ZSLの重要なビルディングブロックの一つであるセマンティックな特徴空間を完全に強化することに注力する。
要約すると、この論文は意味的特徴空間を完全に強化し、ドメインシフト問題を緩和し、ZSLのためのより堅牢なビジュアル・セマンティックマッピング関数を得るために効果的なソリューションを設計することを目的としている。
各種データセットに対する大規模な実験により,提案手法の有効性が示された。
関連論文リスト
- Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T09:45:24Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文 参考訳(メタデータ) (2022-03-16T11:06:50Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - Zero-Shot Learning Based on Knowledge Sharing [0.0]
Zero-Shot Learning(ZSL)は、ごくわずかなトレーニングデータで分類問題を解決することを目的とした新しい研究です。
本稿では,意味的特徴の表現を充実させるために,知識共有(KS)を導入する。
KSをベースとして,実際の視覚特徴に非常に近い意味的特徴から擬似視覚特徴を生成するために,生成的対向ネットワークを適用した。
論文 参考訳(メタデータ) (2021-02-26T06:43:29Z) - Isometric Propagation Network for Generalized Zero-shot Learning [72.02404519815663]
一般的な戦略は、クラス属性の意味空間と、見たクラスとそのデータに基づいて画像の視覚空間とのマッピングを学ぶことである。
本稿では,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric propagation Network (IPN)を提案する。
IPNは3つの人気のあるゼロショット学習ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-02-03T12:45:38Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z) - Generative Model-driven Structure Aligning Discriminative Embeddings for
Transductive Zero-shot Learning [21.181715602603436]
本稿では、潜在空間における視覚的および意味的なデータを整列する投影関数を学習するためのニューラルネットワークに基づくモデルを提案する。
AWA1, AWA2, CUB, SUN, FLOなどの標準ベンチマークデータセットにおいて, 優れた性能を示す。
また,ラベル付きデータ構造が極めて少ない場合においても,モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-05-09T18:48:20Z) - A Novel Perspective to Zero-shot Learning: Towards an Alignment of
Manifold Structures via Semantic Feature Expansion [17.48923061278128]
ゼロショット学習の一般的な実践は、視覚的特徴空間と意味的特徴空間の間の投影をラベル付きクラス例で訓練することである。
このようなパラダイムの下では、既存のほとんどのメソッドは容易にドメインシフトの問題に悩まされ、ゼロショット認識の性能が低下する。
本稿では, 意味的特徴拡張による多様体構造のアライメントを考慮した AMS-SFE という新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-04-30T14:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。