論文の概要: Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language
- arxiv url: http://arxiv.org/abs/2203.03598v1
- Date: Mon, 7 Mar 2022 18:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:33:39.402480
- Title: Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language
- Title(参考訳): クロスモーダル注意と言語を用いた音声視覚一般化ゼロショット学習
- Authors: Otniel-Bogdan Mercea, Lukas Riesch, A. Sophia Koepke, Zeynep Akata
- Abstract要約: マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 38.02396786726476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to classify video data from classes not included in the training
data, i.e. video-based zero-shot learning, is challenging. We conjecture that
the natural alignment between the audio and visual modalities in video data
provides a rich training signal for learning discriminative multi-modal
representations. Focusing on the relatively underexplored task of audio-visual
zero-shot learning, we propose to learn multi-modal representations from
audio-visual data using cross-modal attention and exploit textual label
embeddings for transferring knowledge from seen classes to unseen classes.
Taking this one step further, in our generalised audio-visual zero-shot
learning setting, we include all the training classes in the test-time search
space which act as distractors and increase the difficulty while making the
setting more realistic. Due to the lack of a unified benchmark in this domain,
we introduce a (generalised) zero-shot learning benchmark on three audio-visual
datasets of varying sizes and difficulty, VGGSound, UCF, and ActivityNet,
ensuring that the unseen test classes do not appear in the dataset used for
supervised training of the backbone deep models. Comparing multiple relevant
and recent methods, we demonstrate that our proposed AVCA model achieves
state-of-the-art performance on all three datasets. Code and data will be
available at \url{https://github.com/ExplainableML/AVCA-GZSL}.
- Abstract(参考訳): トレーニングデータに含まれないクラス、すなわちビデオベースのゼロショット学習からビデオデータを分類する学習は困難である。
映像データにおける音声と視覚の自然なアライメントは、識別的多様表現を学習するための豊富な訓練信号を提供すると推測する。
音声・視覚的ゼロショット学習の比較的過小評価された課題に着目し,クロスモーダルアテンションを用いて音声・視覚的データからマルチモーダル表現を学習し,テキストラベル埋め込みを利用して見知らぬクラスに知識を伝達する手法を提案する。
さらにこれを一歩進めると、一般化された音声視覚ゼロショット学習環境では、テスト時間検索空間に全てのトレーニングクラスが含まれており、このクラスは邪魔者として機能し、設定をよりリアルにしながら難易度を高めます。
この領域に統一的なベンチマークがないため、さまざまなサイズと難易度を持つ3つのオーディオ視覚データセット(VGGSound、UCF、ActivityNet)にゼロショット学習ベンチマークを導入し、バックボーン深部モデルの教師ありトレーニングに使用されるデータセットには、見当たらないテストクラスが現れないようにした。
複数の関連手法と最近の手法を比較して,提案したAVCAモデルが3つのデータセットすべてに対して最先端の性能を実現することを示す。
コードとデータは \url{https://github.com/ExplainableML/AVCA-GZSL} で入手できる。
関連論文リスト
- Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Temporal and cross-modal attention for audio-visual zero-shot learning [38.02396786726476]
ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。
本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。
本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-20T15:19:30Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - AVGZSLNet: Audio-Visual Generalized Zero-Shot Learning by Reconstructing
Label Features from Multi-Modal Embeddings [37.3282534461213]
マルチモーダル環境でゼロショット学習を一般化するための新しい手法を提案する。
テキスト埋め込みのセマンティックな関連性をゼロショット学習の手段として,音声とビデオの埋め込みを対応するクラスラベルテキスト特徴空間と整列させることにより活用する。
論文 参考訳(メタデータ) (2020-05-27T14:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。