論文の概要: Beyond Isolated Facts: Synthesizing Narrative and Grounded Supervision for VideoQA
- arxiv url: http://arxiv.org/abs/2509.24445v1
- Date: Mon, 29 Sep 2025 08:28:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.862611
- Title: Beyond Isolated Facts: Synthesizing Narrative and Grounded Supervision for VideoQA
- Title(参考訳): 分離されたファクトを超えて:ビデオQAのためのナラティブとグラウンドドのスーパービジョンを合成する
- Authors: Jianxin Liang, Tan Yue, Yuxuan Wang, Yueqian Wang, Zhihan Yin, Huishuai Zhang, Dongyan Zhao,
- Abstract要約: よりリッチな監視信号を合成するためのフレームワークを導入する。
質問ベースパラフレーズ(QBP)と質問ベースキャプション(QBC)の2つの補完戦略を提案する。
- 参考スコア(独自算出の注目度): 37.679936989592996
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The performance of Video Question Answering (VideoQA) models is fundamentally constrained by the nature of their supervision, which typically consists of isolated, factual question-answer pairs. This "bag-of-facts" approach fails to capture the underlying narrative and causal structure of events, limiting models to a shallow understanding of video content. To move beyond this paradigm, we introduce a framework to synthesize richer supervisory signals. We propose two complementary strategies: Question-Based Paraphrasing (QBP), which synthesizes the diverse inquiries (what, how, why) from a video's existing set of question-answer pairs into a holistic narrative paragraph that reconstructs the video's event structure; and Question-Based Captioning (QBC), which generates fine-grained visual rationales, grounding the answer to each question in specific, relevant evidence. Leveraging powerful generative models, we use this synthetic data to train VideoQA models under a unified next-token prediction objective. Extensive experiments on STAR and NExT-QA validate our approach, demonstrating significant accuracy gains and establishing new state-of-the-art results, such as improving a 3B model to 72.5\% on STAR (+4.9\%) and a 7B model to 80.8\% on NExT-QA. Beyond accuracy, our analysis reveals that both QBP and QBC substantially enhance cross-dataset generalization, with QBP additionally accelerating model convergence by over 2.5x. These results demonstrate that shifting data synthesis from isolated facts to narrative coherence and grounded rationales yields a more accurate, efficient, and generalizable training paradigm.
- Abstract(参考訳): ビデオQA(Video Question Answering)モデルの性能は、その監督の性質によって根本的に制約されている。
この"バグ・オブ・ファクト(bag-of-facts)"アプローチは、イベントの根底にある物語や因果構造を捉えることに失敗し、モデルがビデオ内容の浅い理解に制限される。
このパラダイムを超えて、よりリッチな監視信号を合成するフレームワークを導入する。
ビデオのイベント構造を再構築する包括的物語節に、既存の質問対から多様な質問を合成するQBPと、詳細な視覚的有理性を生成するQBCという2つの補完的戦略を提案する。
強力な生成モデルを活用することで、この合成データを用いて、統合された次世代予測対象下でビデオQAモデルをトレーニングする。
STAR と NExT-QA の広範囲にわたる実験により,STAR では 3B モデルが 72.5 % (+4.9 %) に,NExT-QA では 7B モデルが 80.8 % に改善された。
解析の結果,QBPとQBCは相互データセットの一般化を著しく促進し,QBPはモデル収束を2.5倍に加速することがわかった。
これらの結果は、データ合成を孤立した事実から物語的コヒーレンスや根拠的合理性へとシフトさせることにより、より正確で効率的で一般化可能な訓練パラダイムが得られることを示している。
関連論文リスト
- ImplicitQA: Going beyond frames towards Implicit Video Reasoning [36.65883181090953]
ImplicitQAは暗黙の推論でモデルをテストするために設計された新しいベンチマークである。
320以上の高品質なクリエイティビティビデオクリップから得られた、1Kの微妙な注釈付きQAペアで構成されている。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - Causality Model for Semantic Understanding on Videos [0.0]
この論文はセマンティックビデオ理解の領域に焦点を当てている。
VidVRD(Video Relation Detection)とVideoQA(Video Question Answering)の2つの基本的なタスクを前進させる因果モデリングの可能性を探る。
論文 参考訳(メタデータ) (2025-03-16T10:44:11Z) - Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。
そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。
実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文 参考訳(メタデータ) (2025-01-15T12:44:52Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Causal Understanding For Video Question Answering [2.749898166276854]
ビデオ質問回答は難しいタスクであり、複数のフレームを推論し、ビデオ内で提供されるコンテキストに基づいて、異なるオブジェクト間の相互作用を理解する必要がある。
従来のアプローチでは、NExT-QAタスクに取り組むために、サブサンプル情報または因果介入技術と完全なビデオ機能を利用する。
そこで本研究では,NExT-QAデータセットの改良に向けて,これらのアプローチの限界を抽出し,新たな4つの方向のソリューションを提案する。
論文 参考訳(メタデータ) (2024-07-23T06:32:46Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - SRQA: Synthetic Reader for Factoid Question Answering [21.28441702154528]
我々はSRQAと呼ばれる新しいモデルを導入し、これはFactoid Question AnsweringのためのSynthetic Readerを意味する。
このモデルは,多文書シナリオにおける質問応答システムを3つの側面から強化する。
WebQAデータセット上でSRQAを行い、実験により、我々のモデルが最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-09-02T13:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。