Fugu-MT 論文翻訳(概要): Temporal and cross-modal attention for audio-visual zero-shot learning

論文の概要: Temporal and cross-modal attention for audio-visual zero-shot learning

arxiv url: http://arxiv.org/abs/2207.09966v1
Date: Wed, 20 Jul 2022 15:19:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-21 13:47:45.571953
Title: Temporal and cross-modal attention for audio-visual zero-shot learning
Title（参考訳）: 視聴覚ゼロショット学習における時間的・横断的注意
Authors: Otniel-Bogdan Mercea, Thomas Hummel, A. Sophia Koepke, Zeynep Akata
Abstract要約: ビデオ分類のための一般的なゼロショット学習では、音声と視覚情報の関係を理解する必要がある。本稿では,マルチモーダル・テンポラル・クロスアテンション・フレームワーク(modelName)を提案する。本稿では, 時間的特徴を取り入れたフレームワークが, UCf, vgg, アクティビティベンチマークにおいて, ゼロショット学習のための最先端性能をもたらすことを示す。
参考スコア（独自算出の注目度）: 38.02396786726476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual generalised zero-shot learning for video classification requires understanding the relations between the audio and visual information in order to be able to recognise samples from novel, previously unseen classes at test time. The natural semantic and temporal alignment between audio and visual data in video data can be exploited to learn powerful representations that generalise to unseen classes at test time. We propose a multi-modal and Temporal Cross-attention Framework (\modelName) for audio-visual generalised zero-shot learning. Its inputs are temporally aligned audio and visual features that are obtained from pre-trained networks. Encouraging the framework to focus on cross-modal correspondence across time instead of self-attention within the modalities boosts the performance significantly. We show that our proposed framework that ingests temporal features yields state-of-the-art performance on the \ucf, \vgg, and \activity benchmarks for (generalised) zero-shot learning. Code for reproducing all results is available at \url{https://github.com/ExplainableML/TCAF-GZSL}.
Abstract（参考訳）: ビデオ分類のための音声視覚一般化ゼロショット学習では、テスト時に未確認の新規クラスからサンプルを認識するために、音声情報と視覚情報の関係を理解する必要がある。ビデオデータ中の音声と視覚データの自然な意味と時間的アライメントを利用して、テスト時に見えないクラスに一般化する強力な表現を学ぶことができる。本稿では,音声視覚一般化ゼロショット学習のためのマルチモーダル・テンポラルクロスアテンションフレームワーク(\modelname)を提案する。その入力は、事前訓練されたネットワークから得られる時間的に整列したオーディオと視覚的特徴である。フレームワークをモダリティ内での自己注意ではなく、時間を越えた相互対応に集中させることで、パフォーマンスが大幅に向上します。提案フレームワークでは,時間的特徴を取り入れることで,(一般化した)ゼロショット学習の最先端性能が向上することを示す。すべての結果を再現するためのコードは \url{https://github.com/explainableml/tcaf-gzsl} で入手できる。

関連論文リスト

Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文参考訳（メタデータ） (2025-04-08T07:23:28Z)
Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。 OV-AVEBenchデータセットを提案する。
論文参考訳（メタデータ） (2024-11-18T04:35:20Z)
Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-18T01:57:16Z)
Unified Video-Language Pre-training with Synchronized Audio [21.607860535968356]
シンクロナイズドオーディオを用いたビデオ言語事前学習のための拡張フレームワークを提案する。我々のフレームワークは、統合された自己教師型変換器で三モーダル表現を学習する。 0.9Mデータのみを事前学習した本モデルは,最先端のベースラインに対する結果の改善を実現する。
論文参考訳（メタデータ） (2024-05-12T07:59:46Z)
Class-Incremental Grouping Network for Continual Audio-Visual Learning [42.284785756540806]
本稿では,カテゴリワイズ・セマンティックな特徴を学習し,連続的な音声視覚学習を実現するクラスインクリメンタル・グルーピング・ネットワーク(CIGN)を提案する。本稿では,VGGSound-Instruments,VGGSound-100,VGG-Sound Sourcesベンチマークについて広範な実験を行った。実験の結果、CIGNは最先端のオーディオ視覚的クラスインクリメンタル学習性能を達成できた。
論文参考訳（メタデータ） (2023-09-11T07:36:16Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-08-14T08:19:24Z)
Audio-visual Generalised Zero-shot Learning with Cross-modal Attention and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文参考訳（メタデータ） (2022-03-07T18:52:13Z)
LiRA: Learning Visual Speech Representations from Audio through Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-16T23:20:06Z)
Cross-Modal learning for Audio-Visual Video Parsing [30.331280948237428]
本稿では,映像からイベントを別々に分離するAVVPタスクに対する新しいアプローチを提案する。 AVVPは, 効果的なクロスモーダル学習を目的とした, 以下の手法の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (2021-04-03T07:07:21Z)
Learning Speech Representations from Raw Audio by Joint Audiovisual Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文参考訳（メタデータ） (2020-07-08T14:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。