論文の概要: CAD -- Contextual Multi-modal Alignment for Dynamic AVQA
- arxiv url: http://arxiv.org/abs/2310.16754v2
- Date: Fri, 27 Oct 2023 11:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 19:09:29.115757
- Title: CAD -- Contextual Multi-modal Alignment for Dynamic AVQA
- Title(参考訳): CAD-動的AVQAのためのコンテキストマルチモーダルアライメント
- Authors: Asmar Nadeem, Adrian Hilton, Robert Dawes, Graham Thomas, Armin
Mustafa
- Abstract要約: 既存のAVQA手法には2つの大きな欠点がある。
提案するCADネットワークは,最先端手法の全体的な性能を平均9.4%向上させる。
- 参考スコア(独自算出の注目度): 20.155816093525374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of Audio Visual Question Answering (AVQA) tasks, the audio
visual modalities could be learnt on three levels: 1) Spatial, 2) Temporal, and
3) Semantic. Existing AVQA methods suffer from two major shortcomings; the
audio-visual (AV) information passing through the network isn't aligned on
Spatial and Temporal levels; and, inter-modal (audio and visual) Semantic
information is often not balanced within a context; this results in poor
performance. In this paper, we propose a novel end-to-end Contextual
Multi-modal Alignment (CAD) network that addresses the challenges in AVQA
methods by i) introducing a parameter-free stochastic Contextual block that
ensures robust audio and visual alignment on the Spatial level; ii) proposing a
pre-training technique for dynamic audio and visual alignment on Temporal level
in a self-supervised setting, and iii) introducing a cross-attention mechanism
to balance audio and visual information on Semantic level. The proposed novel
CAD network improves the overall performance over the state-of-the-art methods
on average by 9.4% on the MUSIC-AVQA dataset. We also demonstrate that our
proposed contributions to AVQA can be added to the existing methods to improve
their performance without additional complexity requirements.
- Abstract(参考訳): 音声視覚質問応答(avqa)タスクの文脈では、音声視覚モダリティを3つのレベルで学習することができる。
1)空間
2) 時間的,そして
3)意味論。
既存のAVQA手法には2つの大きな欠点がある: ネットワークを通過する音声視覚(AV)情報は空間的レベルと時間的レベルに一致しない; そして、モーダル間(オーディオと視覚)のセマンティック情報は文脈内ではバランスが取れない。
本稿では,AVQA手法の課題に対処する,エンドツーエンドのマルチモーダルアライメント(CAD)ネットワークを提案する。
一 空間レベルに頑健な音声及び視覚的アライメントを確保するためのパラメータフリー確率的文脈ブロックを導入すること。
二 自己監督設定における時間レベルの動的オーディオ及び視覚的アライメントのための事前学習手法の提案
三 セマンティックレベルの音声及び視覚情報のバランスをとるための相互注意機構を導入すること。
提案する新しいcadネットワークは,音楽avqaデータセットにおける最先端手法全体のパフォーマンスを平均9.4%向上させる。
また、AVQAに対する提案されたコントリビューションが既存のメソッドに追加され、さらなる複雑さの要求なしにパフォーマンスが向上することを示す。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation [7.124066540020968]
AVSS (Audio-Visual Semantic) は映像中の音源の画素レベルのローカライゼーションを実現することを目的としており、AVSS (Audio-Visual Semantic) は音声視覚シーンの意味的理解を追求している。
従来の方法は、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分である。
textitStepping Stonesと呼ばれる2段階のトレーニング戦略を提案し、AVSSタスクを2つの単純なサブタスクに分解する。
論文 参考訳(メタデータ) (2024-07-16T15:08:30Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering [6.719652962434731]
本稿では,音声-視覚的質問応答(AVQA)のための,CLIPを利用したターゲット対応シングルストリーム(TASS)ネットワークを提案する。
ターゲット対応空間接地モジュール(TSG+)と単一ストリーム継手時間接地モジュール(JTG)の2つのキーコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-05-13T03:25:15Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。