論文の概要: MovieRecapsQA: A Multimodal Open-Ended Video Question-Answering Benchmark
- arxiv url: http://arxiv.org/abs/2601.02536v1
- Date: Mon, 05 Jan 2026 20:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.719071
- Title: MovieRecapsQA: A Multimodal Open-Ended Video Question-Answering Benchmark
- Title(参考訳): MovieRecapsQA: マルチモーダルなオープンエンディングビデオ質問-回答ベンチマーク
- Authors: Shaden Shaar, Bradon Thymes, Sirawut Chaixanien, Claire Cardie, Bharath Hariharan,
- Abstract要約: MovieRecapsQAは、入力の明示的なテキストコンテキストを提供する、オープンなVideoQAベンチマークである。
我々のベンチマークでは、複数の長さの動画(recap-segments, movie-segments)と(モダリティと型による)質問の分類を提供し、きめ細かい分析を可能にする。
- 参考スコア(独自算出の注目度): 32.452556002879255
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding real-world videos such as movies requires integrating visual and dialogue cues to answer complex questions. Yet existing VideoQA benchmarks struggle to capture this multimodal reasoning and are largely not open-ended, given the difficulty of evaluating free-form answers. In this paper, we introduce a novel open-ended multi-modal VideoQA benchmark, MovieRecapsQA created using movie recap videos--a distinctive type of YouTube content that summarizes a film by presenting its key events through synchronized visual (recap video) and textual (recap summary) modalities. Using the recap summary, we generate $\approx 8.2$ K question-answer (QA) pairs (aligned with movie-subtitles) and provide the necessary "facts" needed to verify an answer in a reference-free manner. To our knowledge, this is the first open-ended VideoQA benchmark that supplies explicit textual context of the input (video and/or text); which we use for evaluation. Our benchmark provides videos of multiple lengths (i.e., recap-segments, movie-segments) and categorizations of questions (by modality and type) to enable fine-grained analysis. We evaluate the performance of seven state-of-the-art MLLMs using our benchmark and observe that: 1) visual-only questions remain the most challenging; 2) models default to textual inputs whenever available; 3) extracting factually accurate information from video content is still difficult for all models; and 4) proprietary and open-source models perform comparably on video-dependent questions.
- Abstract(参考訳): 映画のような現実世界のビデオを理解するには、複雑な質問に答えるために視覚と対話の手がかりを統合する必要がある。
しかし、既存のVideoQAベンチマークは、このマルチモーダルな推論を捉えるのに苦労しており、フリーフォームの回答を評価するのが難しいため、ほとんどオープンではない。
本稿では,映画再生ビデオを用いた新しいオープンエンドマルチモーダルビデオQAベンチマークであるMovieRecapsQAを紹介する。
リキャップ要約を用いて、$\approx 8.2$ K question-answer (QA) ペアを生成し、参照なしの方法で回答を検証するために必要な「ファクト」を提供する。
私たちの知る限り、これは、入力(ビデオおよび/またはテキスト)の明示的なテキストコンテキストを提供する、最初のオープンエンドのVideoQAベンチマークです。
我々のベンチマークでは、複数の長さの動画(recap-segments, movie-segments)と(モダリティと型による)質問の分類を提供し、きめ細かい分析を可能にする。
我々は,7つの最先端MLLMの性能をベンチマークを用いて評価し,その有効性を考察した。
1) 視覚のみの問題が最も難しい。
2) 利用可能なときにテキスト入力にデフォルトのモデル。
3)映像コンテンツから事実的正確な情報を抽出することは,すべてのモデルにおいて依然として困難である。
4) プロプライエタリモデルとオープンソースモデルは,ビデオ依存の質問に対して比較的に機能する。
関連論文リスト
- Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。