論文の概要: Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering
- arxiv url: http://arxiv.org/abs/2404.12020v1
- Date: Thu, 18 Apr 2024 09:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 12:51:17.624182
- Title: Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering
- Title(参考訳): Look, Listen, and Answer: Overcoming Biases for Audio-Visual Question Answering
- Authors: Jie Ma, Min Hu, Pinghui Wang, Wangchun Sun, Lingyun Song, Hongbin Pei, Jun Liu, Youtian Du,
- Abstract要約: AVQA(Audio-Visual Question Answering)は、複雑なマルチモーダル推論タスクである。
一般的なAVQAアプローチは、データセットのバイアスを過度に学習する傾向があり、結果として堅牢性が低下する。
本研究では,公開データセット(textitMUSIC-AVQA)のテストスプリット内での質問の表現と,その後に分割された質問に対する分散シフトを導入する2つのステップで構築された新しいデータセットであるtextitMUSIC-AVQA-Rを提案する。
- 参考スコア(独自算出の注目度): 25.577314828249897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-Visual Question Answering (AVQA) is a complex multi-modal reasoning task, demanding intelligent systems to accurately respond to natural language queries based on audio-video input pairs. Nevertheless, prevalent AVQA approaches are prone to overlearning dataset biases, resulting in poor robustness. Furthermore, current datasets may not provide a precise diagnostic for these methods. To tackle these challenges, firstly, we propose a novel dataset, \textit{MUSIC-AVQA-R}, crafted in two steps: rephrasing questions within the test split of a public dataset (\textit{MUSIC-AVQA}) and subsequently introducing distribution shifts to split questions. The former leads to a large, diverse test space, while the latter results in a comprehensive robustness evaluation on rare, frequent, and overall questions. Secondly, we propose a robust architecture that utilizes a multifaceted cycle collaborative debiasing strategy to overcome bias learning. Experimental results show that this architecture achieves state-of-the-art performance on both datasets, especially obtaining a significant improvement of 9.68\% on the proposed dataset. Extensive ablation experiments are conducted on these two datasets to validate the effectiveness of the debiasing strategy. Additionally, we highlight the limited robustness of existing multi-modal QA methods through the evaluation on our dataset.
- Abstract(参考訳): AVQA(Audio-Visual Question Answering)は複雑なマルチモーダル推論タスクであり、音声とビデオの入力ペアに基づいて、インテリジェントなシステムが自然言語クエリに正確に応答するよう要求する。
それでも、一般的なAVQAアプローチは、データセットのバイアスを過度に学習する傾向があり、結果としてロバスト性が低下する。
さらに、現在のデータセットはこれらの方法の正確な診断を提供していないかもしれない。
これらの課題に対処するために、まず、公開データセット(\textit{MUSIC-AVQA})のテストスプリット内の質問を表現し、その後、分割された質問に分配シフトを導入するという、2つのステップで構築された新しいデータセットである \textit{MUSIC-AVQA-R} を提案する。
前者は多様で多様なテストスペースを導き、後者は稀で頻繁で全体的な質問に対する包括的な堅牢性評価をもたらす。
次に, バイアス学習を克服するために, 多面サイクル協調型バイアス回避戦略を利用する頑健なアーキテクチャを提案する。
実験の結果、このアーキテクチャは両方のデータセットで最先端のパフォーマンスを実現し、特に提案したデータセットでは9.68\%の大幅な改善が得られた。
これら2つのデータセットに対して大規模なアブレーション実験を行い、デバイアスング戦略の有効性を検証した。
さらに,既存のマルチモーダルQA手法の限界ロバスト性を,データセットの評価を通じて強調する。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for
Unbiased Question-Answering [10.00386025149584]
各質問タイプを元のデータセットからレビューし,回答バイアスが顕著であるものを選択する。
相補的なビデオや質問を収集し、解答に見事な歪曲分布がないことを保証します。
本稿では,音声-視覚-テキスト相互関係を深く掘り下げる新しいベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-10-10T01:22:41Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Modern Question Answering Datasets and Benchmarks: A Survey [5.026863544662493]
質問回答(QA)は、自然言語処理(NLP)の最も重要なタスクの一つである。
NLP技術を用いて、大量の非構造化コーパスに基づいて、与えられた質問に対する対応する回答を生成することを目的としている。
本稿では,ディープラーニングの時代にリリースされた,影響力あるQAデータセットについて検討する。
論文 参考訳(メタデータ) (2022-06-30T05:53:56Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。