論文の概要: Learning Trimodal Relation for AVQA with Missing Modality
- arxiv url: http://arxiv.org/abs/2407.16171v1
- Date: Tue, 23 Jul 2024 04:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:45:39.542535
- Title: Learning Trimodal Relation for AVQA with Missing Modality
- Title(参考訳): モダリティの欠如によるAVQAの3次関係の学習
- Authors: Kyu Ri Park, Hong Joo Lee, Jung Uk Kim,
- Abstract要約: モダリティが欠如している場合でも、堅牢なAVQA(Audio-Visual Question Answering)性能を保証するフレームワークを提案する。
提案手法は,入力モダリティが欠落している場合でも,利用可能な情報を有効活用することにより,正確な回答を提供することができる。
- 参考スコア(独自算出の注目度): 13.705369273831055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Audio-Visual Question Answering (AVQA) methods rely on complete visual and audio input to answer questions accurately. However, in real-world scenarios, issues such as device malfunctions and data transmission errors frequently result in missing audio or visual modality. In such cases, existing AVQA methods suffer significant performance degradation. In this paper, we propose a framework that ensures robust AVQA performance even when a modality is missing. First, we propose a Relation-aware Missing Modal (RMM) generator with Relation-aware Missing Modal Recalling (RMMR) loss to enhance the ability of the generator to recall missing modal information by understanding the relationships and context among the available modalities. Second, we design an Audio-Visual Relation-aware (AVR) diffusion model with Audio-Visual Enhancing (AVE) loss to further enhance audio-visual features by leveraging the relationships and shared cues between the audio-visual modalities. As a result, our method can provide accurate answers by effectively utilizing available information even when input modalities are missing. We believe our method holds potential applications not only in AVQA research but also in various multi-modal scenarios.
- Abstract(参考訳): 近年のAVQA (Audio-Visual Question Answering) 手法は,質問に正確に答えるために,完全な視覚的および音声的入力に依存している。
しかし、現実のシナリオでは、機器の故障やデータ転送エラーなどの問題は、しばしば音声や視覚的モダリティの欠如に繋がる。
このような場合、既存のAVQA法は性能が著しく低下する。
本稿では,モダリティが欠如している場合でもロバストなAVQA性能を保証するフレームワークを提案する。
まず,Relation-Aware Missing Modal (RMM) ジェネレータとRelation-Aware Missing Modal Recalling (RMMR) ジェネレータの損失について述べる。
第2に、オーディオ・ビジュアル・リレーショナル・アウェア(AVR)拡散モデルの設計を行い、オーディオ・ビジュアル・エンハンシング(AVE)損失を低減し、オーディオ・ビジュアル・モダリティ間の関係と共有の手がかりを活用することにより、オーディオ・ビジュアル・特徴をさらに強化する。
その結果,入力モダリティが欠落している場合でも,利用可能な情報を効果的に活用し,正確な回答を提供できることがわかった。
提案手法は,AVQA研究だけでなく,様々なマルチモーダルシナリオにも応用できると考えている。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Listen Then See: Video Alignment with Speaker Attention [0.0]
SIQA (Socially Intelligent Question Answering) は、文脈理解、時間的推論、マルチモーダル情報の統合を必要とする。
我々は、最先端の成果を得られるクロスモーダルアライメントとその後の表現融合アプローチを導入する。
提案手法は,音声モダリティを言語モダリティのブリッジとして用いることで,映像モダリティの活用能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-21T04:55:13Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - CAT: Enhancing Multimodal Large Language Model to Answer Questions in
Dynamic Audio-Visual Scenarios [69.94398424864595]
本稿では,リッチで複雑なダイナミック・オーディオ・ビジュアル・コンポーネントからなるシナリオにおいて,質問に答えることの課題に焦点をあてる。
本稿では,MLLM(Multimodal Large Language Models)を3つの方法で拡張するCATを紹介する。
CATは混合マルチモーダルデータセットでトレーニングされており、オーディオと視覚のシナリオで直接適用することができる。
論文 参考訳(メタデータ) (2024-03-07T16:31:02Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。