論文の概要: A Novel Perspective to Zero-shot Learning: Towards an Alignment of
Manifold Structures via Semantic Feature Expansion
- arxiv url: http://arxiv.org/abs/2004.14795v1
- Date: Thu, 30 Apr 2020 14:08:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:30:13.310571
- Title: A Novel Perspective to Zero-shot Learning: Towards an Alignment of
Manifold Structures via Semantic Feature Expansion
- Title(参考訳): ゼロショット学習への新しい展望:意味的特徴展開による多様体構造のアライメントに向けて
- Authors: Jingcai Guo, Song Guo
- Abstract要約: ゼロショット学習の一般的な実践は、視覚的特徴空間と意味的特徴空間の間の投影をラベル付きクラス例で訓練することである。
このようなパラダイムの下では、既存のほとんどのメソッドは容易にドメインシフトの問題に悩まされ、ゼロショット認識の性能が低下する。
本稿では, 意味的特徴拡張による多様体構造のアライメントを考慮した AMS-SFE という新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 17.48923061278128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot learning aims at recognizing unseen classes (no training example)
with knowledge transferred from seen classes. This is typically achieved by
exploiting a semantic feature space shared by both seen and unseen classes,
i.e., attribute or word vector, as the bridge. One common practice in zero-shot
learning is to train a projection between the visual and semantic feature
spaces with labeled seen classes examples. When inferring, this learned
projection is applied to unseen classes and recognizes the class labels by some
metrics. However, the visual and semantic feature spaces are mutually
independent and have quite different manifold structures. Under such a
paradigm, most existing methods easily suffer from the domain shift problem and
weaken the performance of zero-shot recognition. To address this issue, we
propose a novel model called AMS-SFE. It considers the alignment of manifold
structures by semantic feature expansion. Specifically, we build upon an
autoencoder-based model to expand the semantic features from the visual inputs.
Additionally, the expansion is jointly guided by an embedded manifold extracted
from the visual feature space of the data. Our model is the first attempt to
align both feature spaces by expanding semantic features and derives two
benefits: first, we expand some auxiliary features that enhance the semantic
feature space; second and more importantly, we implicitly align the manifold
structures between the visual and semantic feature spaces; thus, the projection
can be better trained and mitigate the domain shift problem. Extensive
experiments show significant performance improvement, which verifies the
effectiveness of our model.
- Abstract(参考訳): ゼロショット学習は、見知らぬクラス(トレーニングサンプルなし)を、見知らぬクラスから伝達された知識で認識することを目的としている。
これは典型的には、目に見えるクラスと見えないクラス、すなわち属性またはワードベクターの両方が共有するセマンティックな機能空間をブリッジとして利用することによって実現される。
ゼロショット学習の一般的な実践は、視覚的特徴空間と意味的特徴空間の間の投影をラベル付きクラス例で訓練することである。
推測すると、この学習された射影は未発見のクラスに適用され、いくつかのメトリクスによってクラスラベルを認識する。
しかし、視覚的特徴空間と意味的特徴空間は互いに独立であり、全く異なる多様体構造を持つ。
このようなパラダイムの下で、既存のほとんどの手法はドメインシフト問題に苦しめやすく、ゼロショット認識の性能を弱めている。
そこで本研究では,AMS-SFEと呼ばれる新しいモデルを提案する。
意味的特徴展開による多様体構造のアライメントを考える。
具体的には、視覚入力からセマンティック機能を拡張するためのオートエンコーダベースのモデルを構築します。
さらに、拡張はデータの視覚的特徴空間から抽出された埋め込み多様体によって共同で導かれる。
まず、意味的特徴空間を拡張する補助的な特徴を拡張し、第二に、視覚的特徴空間と意味的特徴空間の間の多様体構造を暗黙的に整列させることにより、プロジェクションをよりよく訓練し、ドメインシフト問題を緩和する。
広範な実験により,性能が大幅に向上し,モデルの有効性が検証された。
関連論文リスト
- Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T09:45:24Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Beyond Prototypes: Semantic Anchor Regularization for Better
Representation Learning [82.29761875805369]
表現学習の最終的な目標の1つは、クラス内のコンパクトさとクラス間の十分な分離性を達成することである。
本稿では,機能セントロイドとして機能する事前定義されたクラスアンカーを用いて,特徴学習を一方向ガイドする新しい視点を提案する。
提案したSemantic Anchor Regularization (SAR) は,既存モデルのプラグアンドプレイ方式で使用することができる。
論文 参考訳(メタデータ) (2023-12-19T05:52:38Z) - Dual Feature Augmentation Network for Generalized Zero-shot Learning [14.410978100610489]
ゼロショット学習 (ZSL) は,見知らぬクラスから知識を伝達することによって,サンプルを訓練せずに新しいクラスを推論することを目的としている。
ZSLの既存の埋め込みベースのアプローチは、画像上の属性を見つけるために注意機構を用いるのが一般的である。
本稿では,2つの機能拡張モジュールからなる新しいDual Feature Augmentation Network (DFAN)を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:37:52Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Rich Semantics Improve Few-shot Learning [49.11659525563236]
アノテーションコストを最小限に抑えながら取得できる「クラスレベル」言語記述を用いることで、少ない学習性能を向上できることを示す。
我々は,視覚トークンと意味トークンを関連付けるための前方および後方エンコーディング機構を開発した。
論文 参考訳(メタデータ) (2021-04-26T16:48:27Z) - Learning Robust Visual-semantic Mapping for Zero-shot Learning [8.299945169799795]
ZSL(Zero-shot Learning)の重要な構成要素の1つである意味的特徴空間の完全強化に注力する。
ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。
このようなパラダイムでは、ZSLモデルはマッピング関数を構築および再利用する際にドメインシフトの問題に容易に苦しむ可能性がある。
論文 参考訳(メタデータ) (2021-04-12T17:39:38Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - Generative Model-driven Structure Aligning Discriminative Embeddings for
Transductive Zero-shot Learning [21.181715602603436]
本稿では、潜在空間における視覚的および意味的なデータを整列する投影関数を学習するためのニューラルネットワークに基づくモデルを提案する。
AWA1, AWA2, CUB, SUN, FLOなどの標準ベンチマークデータセットにおいて, 優れた性能を示す。
また,ラベル付きデータ構造が極めて少ない場合においても,モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-05-09T18:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。