論文の概要: Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts
- arxiv url: http://arxiv.org/abs/2106.14082v1
- Date: Sat, 26 Jun 2021 20:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 14:03:29.380230
- Title: Generalized Zero-Shot Learning using Multimodal Variational Auto-Encoder
with Semantic Concepts
- Title(参考訳): 意味概念を用いたマルチモーダル変分オートエンコーダを用いた一般化ゼロショット学習
- Authors: Nihar Bendre, Kevin Desai and Peyman Najafirad
- Abstract要約: 近年の手法では,意味空間と画像空間の相互マッピングの学習が試みられている。
画像特徴と意味空間の共有潜在空間を学習できるマルチモーダル変分自動エンコーダ(M-VAE)を提案する。
提案手法は, ゼロショット学習における最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.9054540533394924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ever-increasing amount of data, the central challenge in multimodal
learning involves limitations of labelled samples. For the task of
classification, techniques such as meta-learning, zero-shot learning, and
few-shot learning showcase the ability to learn information about novel classes
based on prior knowledge. Recent techniques try to learn a cross-modal mapping
between the semantic space and the image space. However, they tend to ignore
the local and global semantic knowledge. To overcome this problem, we propose a
Multimodal Variational Auto-Encoder (M-VAE) which can learn the shared latent
space of image features and the semantic space. In our approach we concatenate
multimodal data to a single embedding before passing it to the VAE for learning
the latent space. We propose the use of a multi-modal loss during the
reconstruction of the feature embedding through the decoder. Our approach is
capable to correlating modalities and exploit the local and global semantic
knowledge for novel sample predictions. Our experimental results using a MLP
classifier on four benchmark datasets show that our proposed model outperforms
the current state-of-the-art approaches for generalized zero-shot learning.
- Abstract(参考訳): データの量が増え続ける中、マルチモーダル学習の中心的な課題はラベル付きサンプルの制限である。
分類作業では,メタラーニング,ゼロショットラーニング,少数ショットラーニングなどの手法が,事前知識に基づいて新しいクラスに関する情報を学習する能力を示している。
近年の手法では,意味空間と画像空間の相互マッピングが試みられている。
しかし、彼らは局所的およびグローバルな意味知識を無視する傾向がある。
この問題を解決するために、画像特徴の共有潜在空間と意味空間を学習できるマルチモーダル変分オートエンコーダ(M-VAE)を提案する。
私たちのアプローチでは、潜在空間を学ぶためにvaeに渡す前に、マルチモーダルデータを単一の埋め込みにまとめます。
本稿では,デコーダに埋め込まれた特徴の再構成において,マルチモーダルロスの利用を提案する。
提案手法は, モダリティを関連づけ, 局所的およびグローバルな意味知識を新たなサンプル予測に活用する。
4つのベンチマークデータセット上のMLP分類器を用いた実験結果から,提案手法はゼロショット学習における最先端の手法よりも優れていることが示された。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。