論文の概要: Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark
- arxiv url: http://arxiv.org/abs/2509.14227v1
- Date: Wed, 17 Sep 2025 17:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.950734
- Title: Cinéaste: A Fine-grained Contextual Movie Question Answering Benchmark
- Title(参考訳): Cinéaste: 詳細なコンテキスト映画の質問にベンチマークで答える
- Authors: Nisarg A. Shah, Amir Ziai, Chaitanya Ekanadham, Vishal M. Patel,
- Abstract要約: 長文映画理解のための総合ベンチマークである$mathsfCinacuteeaste$を紹介した。
我々のデータセットは、200本の映画にまたがる1,805のシーンから抽出された3,119の質問応答対からなる。
実験の結果,既存のMLLMは$mathsfCinacuteeaste$に苦しむことが明らかとなった。
- 参考スコア(独自算出の注目度): 47.482960367243756
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While recent advancements in vision-language models have improved video understanding, diagnosing their capacity for deep, narrative comprehension remains a challenge. Existing benchmarks often test short-clip recognition or use template-based questions, leaving a critical gap in evaluating fine-grained reasoning over long-form narrative content. To address these gaps, we introduce $\mathsf{Cin\acute{e}aste}$, a comprehensive benchmark for long-form movie understanding. Our dataset comprises 3,119 multiple-choice question-answer pairs derived from 1,805 scenes across 200 diverse movies, spanning five novel fine-grained contextual reasoning categories. We use GPT-4o to generate diverse, context-rich questions by integrating visual descriptions, captions, scene titles, and summaries, which require deep narrative understanding. To ensure high-quality evaluation, our pipeline incorporates a two-stage filtering process: Context-Independence filtering ensures questions require video context, while Contextual Veracity filtering validates factual consistency against the movie content, mitigating hallucinations. Experiments show that existing MLLMs struggle on $\mathsf{Cin\acute{e}aste}$; our analysis reveals that long-range temporal reasoning is a primary bottleneck, with the top open-source model achieving only 63.15\% accuracy. This underscores significant challenges in fine-grained contextual understanding and the need for advancements in long-form movie comprehension.
- Abstract(参考訳): 近年の視覚言語モデルの進歩により、映像理解が向上し、深い物語理解能力の診断が進んでいるが、依然として課題である。
既存のベンチマークは、しばしばショートクリップ認識やテンプレートベースの質問をテストし、長い形式の物語コンテンツに対するきめ細かい推論を評価する上で重要なギャップを残している。
これらのギャップに対処するため、長文映画理解のための包括的なベンチマークである$\mathsf{Cin\acute{e}aste}$を導入する。
我々のデータセットは、200の映画にまたがる1,805のシーンから抽出された3,119の質問応答対からなる。
我々はGPT-4oを用いて、深い物語理解を必要とする視覚的記述、キャプション、シーンタイトル、要約を統合することで、多様な文脈に富んだ質問を生成する。
コンテキスト独立フィルタリング(Contextual-Independence filtering)は、ビデオコンテキストを必要とする質問を確実にするが、Contextual Veracity filtering(Contextual Veracity filtering)は、映画コンテンツに対する事実整合性を検証し、幻覚を緩和する。
実験の結果,既存のMLLMは$\mathsf{Cin\acute{e}aste}$に苦しむことが明らかとなった。
このことは、微粒な文脈理解と長文映画理解の進歩の必要性において重要な課題を浮き彫りにしている。
関連論文リスト
- VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。
ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。
構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - TextVidBench: A Benchmark for Long Video Scene Text Understanding [60.94150574231576]
TextVidBenchは、長ビデオテキスト質問応答用に設計された最初のベンチマークである(>3分)。
TextVidBenchは3つの重要な貢献をしている: 9つのカテゴリ(ニュース、スポーツ、ゲームなど)を平均2306秒で拡大し、より現実的な長ビデオ理解を可能にする。
i)IT-ロープ機構と時間的プロンプトエンジニアリングを導入し、時間的知覚を高めること、(ii)非一様位置符号化を採用して長いビデオシーケンスをよりよく扱うこと、(iii)軽量な微調整を施すことにより、大規模モデルを改善するための効率的なパラダイムを提案する。
論文 参考訳(メタデータ) (2025-06-05T12:54:56Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - LvBench: A Benchmark for Long-form Video Understanding with Versatile Multi-modal Question Answering [49.68215536040896]
LvBenchは多目的なマルチモーダル質問応答のための長文ビデオ理解ベンチマークである。
ビデオは70秒から4時間で、シングルシーン、マルチシーン、フルシーンのコンテキストをカバーしています。
本データセットは、慎重に選択された100本の映画から得られた20,061組の質問応答対からなる。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。