論文の概要: Temporal and cross-modal attention for audio-visual zero-shot learning
- arxiv url: http://arxiv.org/abs/2207.09966v1
- Date: Wed, 20 Jul 2022 15:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:47:45.571953
- Title: Temporal and cross-modal attention for audio-visual zero-shot learning
- Title(参考訳): 視聴覚ゼロショット学習における時間的・横断的注意
- Authors: Otniel-Bogdan Mercea, Thomas Hummel, A. Sophia Koepke, Zeynep Akata
- Abstract要約: ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。
本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。
本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
- 参考スコア(独自算出の注目度): 38.02396786726476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual generalised zero-shot learning for video classification requires
understanding the relations between the audio and visual information in order
to be able to recognise samples from novel, previously unseen classes at test
time. The natural semantic and temporal alignment between audio and visual data
in video data can be exploited to learn powerful representations that
generalise to unseen classes at test time. We propose a multi-modal and
Temporal Cross-attention Framework (\modelName) for audio-visual generalised
zero-shot learning. Its inputs are temporally aligned audio and visual features
that are obtained from pre-trained networks. Encouraging the framework to focus
on cross-modal correspondence across time instead of self-attention within the
modalities boosts the performance significantly. We show that our proposed
framework that ingests temporal features yields state-of-the-art performance on
the \ucf, \vgg, and \activity benchmarks for (generalised) zero-shot learning.
Code for reproducing all results is available at
\url{https://github.com/ExplainableML/TCAF-GZSL}.
- Abstract(参考訳): ビデオ分類のための音声視覚一般化ゼロショット学習では、テスト時に未確認の新規クラスからサンプルを認識するために、音声情報と視覚情報の関係を理解する必要がある。
ビデオデータ中の音声と視覚データの自然な意味と時間的アライメントを利用して、テスト時に見えないクラスに一般化する強力な表現を学ぶことができる。
本稿では,音声視覚一般化ゼロショット学習のためのマルチモーダル・テンポラルクロスアテンションフレームワーク(\modelname)を提案する。
その入力は、事前訓練されたネットワークから得られる時間的に整列したオーディオと視覚的特徴である。
フレームワークをモダリティ内での自己注意ではなく、時間を越えた相互対応に集中させることで、パフォーマンスが大幅に向上します。
提案フレームワークでは,時間的特徴を取り入れることで,(一般化した)ゼロショット学習の最先端性能が向上することを示す。
すべての結果を再現するためのコードは \url{https://github.com/explainableml/tcaf-gzsl} で入手できる。
関連論文リスト
- Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。
我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-18T01:57:16Z) - Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。
我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。
0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文 参考訳(メタデータ) (2024-05-12T07:59:46Z) - Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。
本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。
実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文 参考訳(メタデータ) (2023-09-11T07:36:16Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Cross-Modal learning for Audio-Visual Video Parsing [30.331280948237428]
本稿では,映像からイベントを別々に分離するAVVPタスクに対する新しいアプローチを提案する。
AVVPは, 効果的なクロスモーダル学習を目的とした, 以下の手法の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2021-04-03T07:07:21Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。