論文の概要: Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning
- arxiv url: http://arxiv.org/abs/2506.07811v1
- Date: Mon, 09 Jun 2025 14:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.000336
- Title: Looking Beyond Visible Cues: Implicit Video Question Answering via Dual-Clue Reasoning
- Title(参考訳): Visible Cuesを超越して見る:デュアルクレー推論によるビデオ質問の回答
- Authors: Tieyuan Chen, Huabin Liu, Yi Wang, Chaofan Gan, Mingxi Lyu, Gui Zou, Weiyao Lin,
- Abstract要約: Video Question Answering (VideoQA) は、与えられたビデオに基づいて自然言語の質問に答えることを目的としている。
以前の研究は主に、明示的な視覚的証拠と呼ばれる、関連するセグメントの期間を特定することに焦点を当てていた。
I-VQAを導入し、明確な視覚的証拠がアクセスできないシナリオにおける質問に答えることに焦点を当てた。
- 参考スコア(独自算出の注目度): 16.219354963015675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VideoQA) aims to answer natural language questions based on the given video, with prior work primarily focusing on identifying the duration of relevant segments, referred to as explicit visual evidence. However, explicit visual evidence is not always directly available, particularly when questions target symbolic meanings or deeper intentions, leading to significant performance degradation. To fill this gap, we introduce a novel task and dataset, $\textbf{I}$mplicit $\textbf{V}$ideo $\textbf{Q}$uestion $\textbf{A}$nswering (I-VQA), which focuses on answering questions in scenarios where explicit visual evidence is inaccessible. Given an implicit question and its corresponding video, I-VQA requires answering based on the contextual visual cues present within the video. To tackle I-VQA, we propose a novel reasoning framework, IRM (Implicit Reasoning Model), incorporating dual-stream modeling of contextual actions and intent clues as implicit reasoning chains. IRM comprises the Action-Intent Module (AIM) and the Visual Enhancement Module (VEM). AIM deduces and preserves question-related dual clues by generating clue candidates and performing relation deduction. VEM enhances contextual visual representation by leveraging key contextual clues. Extensive experiments validate the effectiveness of our IRM in I-VQA tasks, outperforming GPT-4o, OpenAI-o3, and fine-tuned VideoChat2 by $0.76\%$, $1.37\%$, and $4.87\%$, respectively. Additionally, IRM performs SOTA on similar implicit advertisement understanding and future prediction in traffic-VQA. Datasets and codes are available for double-blind review in anonymous repo: https://github.com/tychen-SJTU/Implicit-VideoQA.
- Abstract(参考訳): ビデオ質問回答 (Video Question Answering, VideoQA) は、与えられたビデオに基づいて自然言語の質問に答えることを目的としている。
しかし、特に質問が象徴的な意味や深い意図を標的にしている場合、明示的な視覚的証拠は必ずしも直接利用できないため、パフォーマンスが著しく低下する。
このギャップを埋めるために、新しいタスクとデータセット、$\textbf{I}$mplicit $\textbf{V}$ideo $\textbf{Q}$uestion $\textbf{A}$nswering (I-VQA)を導入する。
暗黙の質問とその対応ビデオが与えられた場合、I-VQAはビデオ内に存在する文脈的な視覚的手がかりに基づいて答える必要がある。
I-VQAに取り組むために、文脈的行動と意図的手がかりの二重ストリームモデリングを暗黙的推論連鎖として組み込んだ新しい推論フレームワークIRM(Implicit Reasoning Model)を提案する。
IRMは、Action-Intent Module (AIM)とVisual Enhancement Module (VEM)で構成されている。
AIMは、手がかり候補を生成し、関係推論を行うことで、質問関連の2つの手がかりを推論し、保存する。
VEMは、重要な文脈的手がかりを活用することにより、文脈的視覚表現を強化する。
GPT-4o, OpenAI-o3, 微調整の VideoChat2 を 0.76 %$, $1.37 %$, 4,87 %$ で上回った。
さらに、IRMは、交通VQAにおける同様の暗黙の広告理解と将来の予測に基づいてSOTAを実行する。
データセットとコードは匿名リポジトリで二重盲検で確認できる。
関連論文リスト
- QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering [75.01757991135567]
本稿では,動画をエンドツーエンドで処理するDual-Visual Graph Reasoning Unit (DualVGR)を提案する。
我々のDualVGRネットワークは、ベンチマークMSVD-QAおよびSVQAデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-07-10T06:08:15Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。