論文の概要: Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues
- arxiv url: http://arxiv.org/abs/2403.06679v1
- Date: Mon, 11 Mar 2024 12:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:04:15.699970
- Title: Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues
- Title(参考訳): キー・オーディオ・ビジュアル・クレームを付加したテキストによる質問に対する回答
- Authors: Qilang Ye and Zitong Yu and Xin Liu
- Abstract要約: 本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
- 参考スコア(独自算出の注目度): 24.347420432207283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual question answering (AVQA) requires reference to video content
and auditory information, followed by correlating the question to predict the
most precise answer. Although mining deeper layers of audio-visual information
to interact with questions facilitates the multimodal fusion process, the
redundancy of audio-visual parameters tends to reduce the generalization of the
inference engine to multiple question-answer pairs in a single video. Indeed,
the natural heterogeneous relationship between audiovisuals and text makes the
perfect fusion challenging, to prevent high-level audio-visual semantics from
weakening the network's adaptability to diverse question types, we propose a
framework for performing mutual correlation distillation (MCD) to aid question
inference. MCD is divided into three main steps: 1) firstly, the residual
structure is utilized to enhance the audio-visual soft associations based on
self-attention, then key local audio-visual features relevant to the question
context are captured hierarchically by shared aggregators and coupled in the
form of clues with specific question vectors. 2) Secondly, knowledge
distillation is enforced to align audio-visual-text pairs in a shared latent
space to narrow the cross-modal semantic gap. 3) And finally, the audio-visual
dependencies are decoupled by discarding the decision-level integrations. We
evaluate the proposed method on two publicly available datasets containing
multiple question-and-answer pairs, i.e., Music-AVQA and AVQA. Experiments show
that our method outperforms other state-of-the-art methods, and one interesting
finding behind is that removing deep audio-visual features during inference can
effectively mitigate overfitting. The source code is released at
http://github.com/rikeilong/MCD-forAVQA.
- Abstract(参考訳): 音声-視覚的質問応答(AVQA)は、ビデオの内容と聴覚情報を参照し、次に最も正確な回答を予測するための質問を関連付ける。
音声・視覚情報のより深い層をマイニングすることで、マルチモーダル融合プロセスが容易になるが、音声・視覚パラメータの冗長性は、推論エンジンを1つのビデオで複数の質問・回答ペアに一般化する傾向がある。
実際、音声とテキストの自然な異種関係は、ハイレベルな音声視覚意味論がネットワークの多様な質問タイプへの適応性を弱めるのを防ぐために、完全融合を困難にするため、相互相関蒸留(MCD)を行うための枠組みを提案する。
MCDは3つの主要なステップに分けられる。
1) まず, 残差構造を利用して自己アテンションに基づく視聴覚ソフトアソシエーションを強化し, 質問コンテキストに関連する重要な局所視聴覚特徴を共有アグリゲータによって階層的に捉え, 特定の質問ベクトルを用いた手がかりの形で結合する。
2) 知識蒸留は, 音声-視覚-テキスト対を共有潜在空間に整列させ, モーダル間のセマンティックギャップを狭める。
3) そして最後に、決定レベルの統合を破棄することで、オーディオと視覚の依存関係を分離する。
提案手法は,複数の問合せペア,すなわち Music-AVQA と AVQA を含む2つの公開データセットに対して評価する。
実験の結果,提案手法は他の最先端手法よりも優れており,推論中に深い視覚的特徴を除去することで,オーバーフィッティングを効果的に軽減できることがわかった。
ソースコードはhttp://github.com/rikeilong/MCD-forAVQAで公開されている。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - CAT: Enhancing Multimodal Large Language Model to Answer Questions in
Dynamic Audio-Visual Scenarios [69.94398424864595]
本稿では,リッチで複雑なダイナミック・オーディオ・ビジュアル・コンポーネントからなるシナリオにおいて,質問に答えることの課題に焦点をあてる。
本稿では,MLLM(Multimodal Large Language Models)を3つの方法で拡張するCATを紹介する。
CATは混合マルチモーダルデータセットでトレーニングされており、オーディオと視覚のシナリオで直接適用することができる。
論文 参考訳(メタデータ) (2024-03-07T16:31:02Z) - Object-aware Adaptive-Positivity Learning for Audio-Visual Question
Answering [27.763940453394902]
本稿では,未編集映像からの質問に答えることを目的としたAVQA(Audio-Visual Question Answering)タスクに焦点を当てた。
正確な回答を生成するために、AVQAモデルは与えられた質問に関連する最も情報に富む視覚的手がかりを見つけることを期待する。
論文 参考訳(メタデータ) (2023-12-20T07:36:38Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Multi-Scale Attention for Audio Question Answering [9.254814692650523]
AQA (Audio Question answering) は、シーン理解を探索するために広く使用されるプロキシタスクである。
既存の手法は主に視覚的質問応答タスクの構造を単純なパターンで音声に拡張する。
本稿では,非同期ハイブリッドアテンションモジュールとマルチスケールウィンドウアテンションモジュールからなるマルチスケールウィンドウアテンションフュージョンモデルを提案する。
論文 参考訳(メタデータ) (2023-05-29T10:06:58Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。