論文の概要: AVGZSLNet: Audio-Visual Generalized Zero-Shot Learning by Reconstructing
Label Features from Multi-Modal Embeddings
- arxiv url: http://arxiv.org/abs/2005.13402v3
- Date: Mon, 23 Nov 2020 06:13:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 09:51:48.769657
- Title: AVGZSLNet: Audio-Visual Generalized Zero-Shot Learning by Reconstructing
Label Features from Multi-Modal Embeddings
- Title(参考訳): AVGZSLNet:多モード埋め込みによるラベル特徴の再構成による音声視覚一般化ゼロショット学習
- Authors: Pratik Mazumder, Pravendra Singh, Kranti Kumar Parida, Vinay P.
Namboodiri
- Abstract要約: マルチモーダル環境でゼロショット学習を一般化するための新しい手法を提案する。
テキスト埋め込みのセマンティックな関連性をゼロショット学習の手段として,音声とビデオの埋め込みを対応するクラスラベルテキスト特徴空間と整列させることにより活用する。
- 参考スコア(独自算出の注目度): 37.3282534461213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel approach for generalized zero-shot learning
in a multi-modal setting, where we have novel classes of audio/video during
testing that are not seen during training. We use the semantic relatedness of
text embeddings as a means for zero-shot learning by aligning audio and video
embeddings with the corresponding class label text feature space. Our approach
uses a cross-modal decoder and a composite triplet loss. The cross-modal
decoder enforces a constraint that the class label text features can be
reconstructed from the audio and video embeddings of data points. This helps
the audio and video embeddings to move closer to the class label text
embedding. The composite triplet loss makes use of the audio, video, and text
embeddings. It helps bring the embeddings from the same class closer and push
away the embeddings from different classes in a multi-modal setting. This helps
the network to perform better on the multi-modal zero-shot learning task.
Importantly, our multi-modal zero-shot learning approach works even if a
modality is missing at test time. We test our approach on the generalized
zero-shot classification and retrieval tasks and show that our approach
outperforms other models in the presence of a single modality as well as in the
presence of multiple modalities. We validate our approach by comparing it with
previous approaches and using various ablations.
- Abstract(参考訳): 本稿では,マルチモーダル環境でのゼロショット学習を一般化するための新しい手法を提案する。
テキスト埋め込みのセマンティックな関連性をゼロショット学習の手段として,音声とビデオの埋め込みを対応するクラスラベルテキスト特徴空間と整列させることにより活用する。
本手法はクロスモーダルデコーダと複合三重項損失を用いる。
クロスモーダルデコーダは、クラスラベルテキストの特徴をデータポイントのオーディオおよびビデオ埋め込みから再構成できるという制約を強制する。
これにより、オーディオとビデオの埋め込みは、クラスラベルのテキスト埋め込みに近づいた。
合成三重項損失は、オーディオ、ビデオ、テキストの埋め込みを利用する。
同じクラスからの埋め込みをもっと近づけ、異なるクラスからの埋め込みをマルチモーダルな設定でプッシュするのに役立つ。
これにより、マルチモーダルなゼロショット学習タスクでネットワークのパフォーマンスが向上する。
重要なのは、テスト時にモダリティが欠落していても、マルチモーダルなゼロショット学習アプローチが有効です。
我々は、一般化されたゼロショット分類と検索タスクにアプローチを試行し、単一のモダリティや複数のモダリティの存在下で他のモデルよりも優れていることを示す。
従来のアプローチと比較し,様々なアプローチを用いてアプローチを検証する。
関連論文リスト
- PALM: Few-Shot Prompt Learning for Audio Language Models [1.6177972328875514]
音声言語モデル(ALM)は近年,ゼロショット音声認識タスクにおいて顕著な成功を収めている。
本稿では,テキストエンコーダブランチの機能空間を最適化する新しい手法であるPrompt Learning in Audio Language Models (PALM)を提案する。
本研究では,11の音声認識データセットに対するアプローチの有効性を実証し,その結果と3つのベースラインを数ショットの学習設定で比較する。
論文 参考訳(メタデータ) (2024-09-29T22:06:07Z) - Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - OpenSR: Open-Modality Speech Recognition via Maintaining Multi-Modality
Alignment [57.15449072423539]
オープンモダリティ音声認識(textbfOpenSR)の学習システムを提案する。
OpenSRは、3つの異なる設定で1から1へのモダリティ転送を可能にする。
既存の数ショットとフルショットのリップリード方式と比較して、非常に競争力のあるゼロショット性能を実現している。
論文 参考訳(メタデータ) (2023-06-10T11:04:10Z) - Temporal and cross-modal attention for audio-visual zero-shot learning [38.02396786726476]
ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。
本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。
本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-20T15:19:30Z) - Clover: Towards A Unified Video-Language Alignment and Fusion Model [154.1070559563592]
我々は,Corver,Correlated Video-Language Pre-Torning法を紹介する。
クロスモーダルな特徴アライメントと融合を、新しい3モーダルアライメント事前訓練タスクを通じて改善する。
Cloverは、複数のダウンストリームタスクに新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-07-16T09:38:52Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。