論文の概要: Question-Aware Gaussian Experts for Audio-Visual Question Answering
- arxiv url: http://arxiv.org/abs/2503.04459v2
- Date: Fri, 07 Mar 2025 09:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:44.032188
- Title: Question-Aware Gaussian Experts for Audio-Visual Question Answering
- Title(参考訳): 音声-視覚的質問応答におけるガウス的専門家の意識
- Authors: Hongyeob Kim, Inyoung Jung, Dayoon Suh, Youjia Zhang, Sangmin Lee, Sungeun Hong,
- Abstract要約: AVQA (Audio-Visual Question Answering) は質問に基づく多モーダル推論と正確な時間的根拠を必要とする。
本稿では,質問情報を明示的に組み込んだ新しいフレームワークQA-TIGERを提案する。
- 参考スコア(独自算出の注目度): 8.377705744753047
- License:
- Abstract: Audio-Visual Question Answering (AVQA) requires not only question-based multimodal reasoning but also precise temporal grounding to capture subtle dynamics for accurate prediction. However, existing methods mainly use question information implicitly, limiting focus on question-specific details. Furthermore, most studies rely on uniform frame sampling, which can miss key question-relevant frames. Although recent Top-K frame selection methods aim to address this, their discrete nature still overlooks fine-grained temporal details. This paper proposes QA-TIGER, a novel framework that explicitly incorporates question information and models continuous temporal dynamics. Our key idea is to use Gaussian-based modeling to adaptively focus on both consecutive and non-consecutive frames based on the question, while explicitly injecting question information and applying progressive refinement. We leverage a Mixture of Experts (MoE) to flexibly implement multiple Gaussian models, activating temporal experts specifically tailored to the question. Extensive experiments on multiple AVQA benchmarks show that QA-TIGER consistently achieves state-of-the-art performance. Code is available at https://aim-skku.github.io/QA-TIGER/
- Abstract(参考訳): AVQA(Audio-Visual Question Answering)は、質問ベースの多モーダル推論だけでなく、正確な予測のために微妙なダイナミクスを捉えるための正確な時間的グラウンドも必要である。
しかし,既存の手法では主に質問情報を暗黙的に用い,質問固有の詳細に焦点を絞っている。
さらに、ほとんどの研究は、重要な疑問関連フレームを見逃す可能性のある一様フレームサンプリングに依存している。
近年のTop-Kフレーム選択手法はこの問題に対処しようとするが、その離散性は微粒な時間的詳細を見落としている。
本稿では,質問情報を明示的に組み込んだ新しいフレームワークQA-TIGERを提案する。
我々のキーとなる考え方は、ガウスに基づくモデリングを用いて、質問情報を明確に注入し、進歩的改善を適用しながら、質問に基づいて連続的および非連続的なフレームに適応的に焦点を合わせることである。
我々は、Mixture of Experts(MoE)を利用して、複数のガウスモデルを柔軟に実装し、質問に特化された時間的専門家を活性化する。
複数のAVQAベンチマークの大規模な実験は、QA-TIGERが一貫して最先端のパフォーマンスを達成することを示している。
コードはhttps://aim-skku.github.io/QA-TIGER/で入手できる。
関連論文リスト
- Boosting Audio Visual Question Answering via Key Semantic-Aware Cues [8.526720031181027]
AVQA(Audio Visual Question Answering)タスクは、ビデオにおける様々な視覚オブジェクト、音、およびそれらの相互作用に関する質問に答えることを目的としている。
本研究は, 時間空間知覚モデル(TSPM, Temporal-Spatial Perception Model)を提案する。
論文 参考訳(メタデータ) (2024-07-30T09:41:37Z) - Multi-hop Question Answering under Temporal Knowledge Editing [9.356343796845662]
知識編集(KE)におけるマルチホップ質問応答(MQA)は,大規模言語モデルの時代において大きな注目を集めている。
KEの下でのMQAの既存のモデルは、明示的な時間的コンテキストを含む質問を扱う場合、パフォーマンスが劣っている。
TEMPoral knowLEdge augmented Multi-hop Question Answering (TEMPLE-MQA) を提案する。
論文 参考訳(メタデータ) (2024-03-30T23:22:51Z) - Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Event Extraction as Question Generation and Answering [72.04433206754489]
イベント抽出に関する最近の研究は、質問回答(QA)としてタスクを再編成した。
そこで我々は,QGA-EEを提案する。QGモデルにより,定型テンプレートを使わずに,リッチな文脈情報を含む質問を生成することができる。
実験の結果、QGA-EEはACE05の英語データセットで以前のシングルタスクベースのモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-07-10T01:46:15Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - NAAQA: A Neural Architecture for Acoustic Question Answering [8.364707318181193]
AQAタスクの目的は、音響シーンの内容に関する自由形式のテキスト質問に答えることである。
音響入力の特定の課題を強調する新しいベンチマークであるCLEAR2を提案する。
また、音響入力の特定の特性を活用するニューラルネットワークであるNAAQAを紹介する。
論文 参考訳(メタデータ) (2021-06-11T03:05:48Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。