論文の概要: MUPA: Towards Multi-Path Agentic Reasoning for Grounded Video Question Answering
- arxiv url: http://arxiv.org/abs/2506.18071v2
- Date: Fri, 27 Jun 2025 06:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 13:06:01.318892
- Title: MUPA: Towards Multi-Path Agentic Reasoning for Grounded Video Question Answering
- Title(参考訳): MUPA:グラウンドドビデオ質問応答のためのマルチパスエージェント推論を目指して
- Authors: Jisheng Dang, Huilin Song, Junbin Xiao, Bimei Wang, Han Peng, Haoxuan Li, Xun Yang, Meng Wang, Tat-Seng Chua,
- Abstract要約: Grounded Video Question Answering (Grounded VideoQA) では、テキストによる回答と明確な視覚的証拠の整合が必要である。
本研究では,ビデオグラウンド,質問応答,回答反射,集約を統一するMulti-Path AgenticアプローチであるMUPAを提案する。
- 参考スコア(独自算出の注目度): 64.46361702927457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounded Video Question Answering (Grounded VideoQA) requires aligning textual answers with explicit visual evidence. However, modern multimodal models often rely on linguistic priors and spurious correlations, resulting in poorly grounded predictions. In this work, we propose MUPA, a cooperative MUlti-Path Agentic approach that unifies video grounding, question answering, answer reflection and aggregation to tackle Grounded VideoQA. MUPA features three distinct reasoning paths on the interplay of grounding and QA agents in different chronological orders, along with a dedicated reflection agent to judge and aggregate the multi-path results to accomplish consistent QA and grounding. This design markedly improves grounding fidelity without sacrificing answer accuracy. Despite using only 2B parameters, our method outperforms all 7B-scale competitors. When scaled to 7B parameters, MUPA establishes new state-of-the-art results, with Acc@GQA of 30.3% and 47.4% on NExT-GQA and DeVE-QA respectively, demonstrating MUPA' effectiveness towards trustworthy video-language understanding. Our code is available in https://github.com/longmalongma/MUPA.
- Abstract(参考訳): Grounded Video Question Answering (Grounded VideoQA) では、テキストによる回答と明確な視覚的証拠の整合が必要である。
しかし、現代のマルチモーダルモデルは、しばしば言語的な先行と突発的な相関に頼り、不明確な予測をもたらす。
本研究では,ビデオのグラウンドディング,質問応答,回答反射,アグリゲーションを統合化して,グラウンドドビデオQAに取り組むMulti-Path AgenticアプローチであるMUPAを提案する。
MUPAは、異なる時系列のグラウンドとQAエージェントの相互作用に関する3つの異なる推論経路と、一貫性のあるQAとグラウンドの達成のために、マルチパス結果を判断し集約する専用のリフレクションエージェントを備えている。
この設計は、解答精度を犠牲にすることなく、接地精度を著しく向上させる。
2Bパラメータしか使用していないにもかかわらず、我々の手法は7Bスケールの競合よりも優れています。
7Bパラメータにスケールすると、MUPAはAcc@GQAが30.3%、DeVE-QAが47.4%となり、MUPAの信頼性の高いビデオ言語理解への効果を示す。
私たちのコードはhttps://github.com/longmalongma/MUPAで利用可能です。
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - ViQAgent: Zero-Shot Video Question Answering via Agent with Open-Vocabulary Grounding Validation [49.1574468325115]
本研究は、ゼロショットビデオ質問応答(VideoQA)のためのLCMブラインドエージェントを提案する。
Chain-of-Thoughtフレームワークと、YOLO-Worldと組み合わせて、オブジェクトのトラッキングとアライメントを強化する。
このアプローチは、NExT-QA、iVQA、ActivityNet-QAベンチマークのパフォーマンスを向上した、ビデオQAおよびビデオ理解における新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2025-05-21T18:32:43Z) - Cross-modal Causal Relation Alignment for Video Question Grounding [44.97933293141372]
ビデオQG(Video question grounding)では、質問に答え、関連するビデオセグメントを同時に推論して回答をサポートする必要がある。
既存のビデオQG手法は、通常、急激な相互モーダルな相関に悩まされ、意図された問題と一致した支配的な視覚シーンを特定することに失敗する。
本稿では,CRA(Cross-modal Causal Relation Alignment)と呼ばれる新しいビデオQGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T01:36:32Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。