論文の概要: Narrative Aligned Long Form Video Question Answering
- arxiv url: http://arxiv.org/abs/2603.19481v1
- Date: Thu, 19 Mar 2026 21:23:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.89631
- Title: Narrative Aligned Long Form Video Question Answering
- Title(参考訳): ナラティブ・アラインド・ロングフォーム・ビデオの質問に答える
- Authors: Rahul Jain, Keval Doshi, Burak Uzkent, Garin Kessler,
- Abstract要約: NA-VQA(NA-VQA)は、長大なビデオにおける時間的・物語的推論を評価するためのベンチマークである。
NA-VQAには88本のフル長の映画と4.4Kのオープンエンドの質問応答ペアが含まれており、それぞれがショート、ミディアム、ファーとラベル付けされた複数のエビデンスに根拠を置いている。
本稿では、イベントレベルの連鎖を構築し、推論中の検索のための構造化メモリに格納する、物語中心のフレームワークであるVideo-NaRAを提案する。
- 参考スコア(独自算出の注目度): 12.805359127629215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in multimodal large language models (MLLMs) has led to a surge of benchmarks for long-video reasoning. However, most existing benchmarks rely on localized cues and fail to capture narrative reasoning, the ability to track intentions, connect distant events, and reconstruct causal chains across an entire movie. We introduce NA-VQA, a benchmark designed to evaluate deep temporal and narrative reasoning in long-form videos. NA-VQA contains 88 full-length movies and 4.4K open-ended question-answer pairs, each grounded in multiple evidence spans labeled as Short, Medium, or Far to assess long-range dependencies. By requiring generative, multi-scene answers, NA-VQA tests whether models can integrate dispersed narrative information rather than rely on shallow pattern matching. To address the limitations of existing approaches, we propose Video-NaRA, a narrative-centric framework that builds event-level chains and stores them in a structured memory for retrieval during reasoning. Extensive experiments show that state-of-the-art MLLMs perform poorly on questions requiring far-range evidence, highlighting the need for explicit narrative modeling. Video-NaRA improves long-range reasoning performance by up to 3 percent, demonstrating its effectiveness in handling complex narrative structures. We will release NA-VQA upon publication.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の最近の進歩は、長期ビデオ推論のためのベンチマークの急増につながっている。
しかし、既存のベンチマークのほとんどは、ローカライズされた手がかりに頼っており、物語の推論、意図の追跡、遠隔イベントの接続、映画全体の因果連鎖の再構築に失敗している。
NA-VQA(NA-VQA)は、長大なビデオにおける時間的・物語的推論を評価するためのベンチマークである。
NA-VQAには88本のフル長の映画と4.4Kのオープンエンドの質問応答ペアが含まれており、それぞれがショート、ミディアム、ファーとラベル付けされた複数のエビデンスに基礎を置いている。
NA-VQAは、生成的かつ多場面の回答を必要とすることにより、浅いパターンマッチングに頼るのではなく、分散した物語情報を統合できるかどうかをテストする。
既存のアプローチの限界に対処するために,イベントレベルの連鎖を構築し,推論中の検索のための構造化メモリに格納する,物語中心のフレームワークであるVideo-NaRAを提案する。
広範囲にわたる実験により、最先端のMLLMは、明確な物語モデリングの必要性を強調しながら、遠距離の証拠を必要とする問題に対して、不十分に機能することが示された。
Video-NaRAは長距離推論性能を最大3%向上させ、複雑な物語構造を扱う上での有効性を示す。
NA-VQAを公開していきます。
関連論文リスト
- Video-R2: Reinforcing Consistent and Grounded Reasoning in Multimodal Language Models [56.851611990473174]
動的ビジュアルコンテンツに対する推論は、大きな言語モデルにとって依然として中心的な課題である。
本稿では,時間的精度と推論一貫性を両立させる強化学習手法を提案する。
結果のモデルであるVideo R2は、複数のベンチマークでTAC、VAS、精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-11-28T18:59:58Z) - LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文 参考訳(メタデータ) (2025-11-25T19:22:48Z) - NOAH: Benchmarking Narrative Prior driven Hallucination and Omission in Video Large Language Models [8.6767620170781]
ビデオ大言語モデル(ビデオLLM)は、最近、キャプション、要約、質問応答といったタスクにおいて、強力なパフォーマンスを実現している。
多くのモデルやトレーニング手法は、物語の一貫性を高めるためにイベント間の連続性を明示的に奨励する。
我々は、このバイアスを、物語を先に呼ぶ2つの誤りの鍵となる要因として挙げる:幻覚(幻覚)、非存在事象、または既存の事象が誤って解釈される場合、そして、事実事象が周囲の状況と不一致しているため抑制される場合である。
論文 参考訳(メタデータ) (2025-11-09T17:41:11Z) - NeuS-QA: Grounding Long-Form Video Understanding in Temporal Logic and Neuro-Symbolic Reasoning [25.109179044490844]
LVQA(Long-Form Question Answering)は、従来の視覚的質問応答(VQA)を超えた課題を提起する
バニラはフレームを均一にサンプリングし、問題のあるVLMに供給し、重要なトークンオーバーヘッドを発生させる。
NeuS-QAは自然言語を形式的時間論理表現に変換し、フレームレベルの意味論的命題からビデオオートマトンを構築する。
論文 参考訳(メタデータ) (2025-09-22T17:15:13Z) - Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding [97.05584099530226]
MF$2$は、モデルがフル長の映画から重要な物語情報を理解し、統合し、思い出せるかどうかを評価するための新しいベンチマークである。
各ペアについて、モデルは真と偽のクレームの両方を正しく識別する必要がある。
実験の結果、オープンウェイトモデルとクローズド・オブ・ザ・アーティファクトモデルの両方が人間のパフォーマンスにかなり劣っていることがわかった。
論文 参考訳(メタデータ) (2025-06-06T17:58:36Z) - VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs [27.473258727617477]
長いビデオ理解は、拡張タイムパンに対する推論の複雑さのために、ユニークな課題を提示する。
Informative Space-TemporAl Reasoning for long-form Video Understandingを提案する。
提案モデルは,3つの長大ビデオ質問応答ベンチマークの最先端性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-30T15:04:14Z) - Long Story Short: a Summarize-then-Search Method for Long Video Question
Answering [23.094728230459125]
言語モデルがマルチメディアコンテンツの長大なマルチモーダル物語にゼロショット推論能力を拡張できるかどうかを検討する。
本稿では,まずビデオの物語を短いプロットに要約し,質問に関連するビデオの一部を検索する,物語ビデオQAのためのフレームワークであるLong Story Shortを提案する。
我々のモデルは最先端の教師付きモデルよりも大きなマージンで優れており、ロングビデオにおけるゼロショットQAの可能性を強調している。
論文 参考訳(メタデータ) (2023-11-02T13:36:11Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。