論文の概要: LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering
- arxiv url: http://arxiv.org/abs/2507.14784v1
- Date: Sun, 20 Jul 2025 01:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.050304
- Title: LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering
- Title(参考訳): LeAdQA:ビデオ質問応答のためのLLM駆動型文脈対応時間グラウンド
- Authors: Xinxin Dong, Baoyun Peng, Haokai Ma, Yufei Wang, Zixuan Dong, Fei Hu, Xiaodong Wang,
- Abstract要約: 本稿では,これらのギャップを埋める斬新な手法であるLeAdQAを紹介する。
NExT-QA, IntentQA, NExT-GQAに関する実験により, 本手法の正確な視覚的基盤化は, 映像検索関係の理解を著しく向上させることを示した。
- 参考スコア(独自算出の注目度): 10.060267989615813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Question Answering (VideoQA) requires identifying sparse critical moments in long videos and reasoning about their causal relationships to answer semantically complex questions. While recent advances in multimodal learning have improved alignment and fusion, current approaches remain limited by two prevalent but fundamentally flawed strategies: (1) task-agnostic sampling indiscriminately processes all frames, overwhelming key events with irrelevant content; and (2) heuristic retrieval captures superficial patterns but misses causal-temporal structures needed for complex reasoning. To address these challenges, we introduce LeAdQA, an innovative approach that bridges these gaps through synergizing causal-aware query refinement with fine-grained visual grounding. Our method first leverages LLMs to reformulate question-option pairs, resolving causal ambiguities and sharpening temporal focus. These refined queries subsequently direct a temporal grounding model to precisely retrieve the most salient segments, complemented by an adaptive fusion mechanism dynamically integrating the evidence to maximize relevance. The integrated visual-textual cues are then processed by an MLLM to generate accurate, contextually-grounded answers. Experiments on NExT-QA, IntentQA, and NExT-GQA demonstrate that our method's precise visual grounding substantially enhances the understanding of video-question relationships, achieving state-of-the-art (SOTA) performance on complex reasoning tasks while maintaining computational efficiency.
- Abstract(参考訳): ビデオ質問回答(Video Question Answering, VideoQA)は、長いビデオの中のわずかな重要な瞬間を特定し、それらの因果関係を推論して、意味論的に複雑な質問に答えることを必要とする。
マルチモーダル学習の最近の進歩は、アライメントと融合を改善しているが、現在のアプローチは、(1)タスクに依存しないサンプリングは、すべてのフレームを無差別に処理し、(2)無関係なコンテンツを持つ圧倒的なキーイベントを処理し、(2)ヒューリスティック検索は、表層パターンをキャプチャするが、複雑な推論に必要な因果時間構造を見逃す、という2つの戦略によって制限されている。
これらの課題に対処するため、我々は、微粒な視覚的接地による因果認識クエリ改善を相乗化することで、これらのギャップを埋める革新的なアプローチであるLeAdQAを紹介した。
提案手法はまずLLMを用いて質問対を再構成し,因果関係の曖昧さを解消し,時間的焦点を鋭くする。
これらの洗練されたクエリはその後、時間的接地モデルに指示し、最も有能なセグメントを正確に検索し、アダプティブ融合機構で補足し、証拠を動的に統合し、妥当性を最大化する。
統合された視覚テキストキューは、MLLMによって処理され、正確な文脈的答えを生成する。
NExT-QA, IntentQA, NExT-GQAに関する実験により, 計算効率を維持しながら複雑な推論タスクにおけるSOTA(State-of-the-art)性能を実現し, 映像検索関係の理解を大幅に向上させることを示した。
関連論文リスト
- Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [69.68265487134686]
Video SimpleQAは、LVLMの事実性評価に適した最初の総合的なベンチマークである。
私たちの研究は、以下の重要な機能を通じて、既存のビデオベンチマークと区別します。
答えは、簡潔なフォーマットで曖昧で決定的に正しいものとして作成されます。
論文 参考訳(メタデータ) (2025-03-24T17:46:09Z) - Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。
そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。
実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文 参考訳(メタデータ) (2025-01-15T12:44:52Z) - Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。
近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。
本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文 参考訳(メタデータ) (2024-12-26T17:53:14Z) - MRAG: A Modular Retrieval Framework for Time-Sensitive Question Answering [3.117448929160824]
大規模言語モデル(LLM)を用いた質問応答システムにおいて,時間的関係と応答時間に敏感な質問
我々は、時間的摂動と金のエビデンスラベルを組み込むことで、既存のデータセットを再利用するTempRAGEvalベンチマークを導入する。
TempRAGEvalでは、MRAGが検索性能においてベースラインレトリバーを著しく上回り、最終回答精度がさらに向上した。
論文 参考訳(メタデータ) (2024-12-20T03:58:27Z) - Review-Then-Refine: A Dynamic Framework for Multi-Hop Question Answering with Temporal Adaptability [19.722009684115434]
Retrieve-augmented Generation (RAG) フレームワークがマルチホップ質問応答(QA)タスクの有望なソリューションとして登場した。
既存のRAGフレームワークは、通常、検索対象のパラダイムに従っており、時間情報を持つマルチホップQAと競合することが多い。
本稿では,マルチホップQAシナリオにおけるLLMの性能向上を目的とした,Review-then-refineと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-19T17:48:23Z) - Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Multi-granularity Contrastive Cross-modal Collaborative Generation for End-to-End Long-term Video Question Answering [53.39158264785098]
ビデオQA(Long-term Video Question Answering)は、視覚的および言語的ブリッジングの課題である。
マルチグラニュラリティ コントラスト クロスモーダル・コラボレーティブ・ジェネレーション・モデル。
論文 参考訳(メタデータ) (2024-10-12T06:21:58Z) - Causal Understanding For Video Question Answering [2.749898166276854]
ビデオ質問回答は難しいタスクであり、複数のフレームを推論し、ビデオ内で提供されるコンテキストに基づいて、異なるオブジェクト間の相互作用を理解する必要がある。
従来のアプローチでは、NExT-QAタスクに取り組むために、サブサンプル情報または因果介入技術と完全なビデオ機能を利用する。
そこで本研究では,NExT-QAデータセットの改良に向けて,これらのアプローチの限界を抽出し,新たな4つの方向のソリューションを提案する。
論文 参考訳(メタデータ) (2024-07-23T06:32:46Z) - RTQ: Rethinking Video-language Understanding Based on Image-text Model [55.278942477715084]
ビデオ言語理解は、非常に複雑なセマンティックな詳細を含んでいるため、ユニークな課題を提示する。
本稿では,これらの課題を同時に解決するRTQという新しいフレームワークを提案する。
本モデルは,ビデオ言語による事前学習がなくても,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-01T04:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。