論文の概要: Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding
- arxiv url: http://arxiv.org/abs/2506.06275v1
- Date: Fri, 06 Jun 2025 17:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.578718
- Title: Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding
- Title(参考訳): 映画ファクトとフィブ(MF$^2$):ロングムービー理解のためのベンチマーク
- Authors: Emmanouil Zaranis, António Farinhas, Saul Santos, Beatriz Canaverde, Miguel Moura Ramos, Aditya K Surikuchi, André Viveiros, Baohao Liao, Elena Bueno-Benito, Nithin Sivakumaran, Pavlo Vasylenko, Shoubin Yu, Sonal Sannigrahi, Wafaa Mohammed, Ben Peters, Danae Sánchez Villegas, Elias Stengel-Eskin, Giuseppe Attanasio, Jaehong Yoon, Stella Frank, Alessandro Suglia, Chrysoula Zerva, Desmond Elliott, Mariella Dimiccoli, Mohit Bansal, Oswald Lanz, Raffaella Bernardi, Raquel Fernández, Sandro Pezzelle, Vlad Niculae, André F. T. Martins,
- Abstract要約: MF$2$は、モデルがフル長の映画から重要な物語情報を理解し、統合し、思い出せるかどうかを評価するための新しいベンチマークである。
各ペアについて、モデルは真と偽のクレームの両方を正しく識別する必要がある。
実験の結果、オープンウェイトモデルとクローズド・オブ・ザ・アーティファクトモデルの両方が人間のパフォーマンスにかなり劣っていることがわかった。
- 参考スコア(独自算出の注目度): 97.05584099530226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent progress in vision-language models (VLMs), holistic understanding of long-form video content remains a significant challenge, partly due to limitations in current benchmarks. Many focus on peripheral, ``needle-in-a-haystack'' details, encouraging context-insensitive retrieval over deep comprehension. Others rely on large-scale, semi-automatically generated questions (often produced by language models themselves) that are easier for models to answer but fail to reflect genuine understanding. In this paper, we introduce MF$^2$, a new benchmark for evaluating whether models can comprehend, consolidate, and recall key narrative information from full-length movies (50-170 minutes long). MF$^2$ includes over 50 full-length, open-licensed movies, each paired with manually constructed sets of claim pairs -- one true (fact) and one plausible but false (fib), totalling over 850 pairs. These claims target core narrative elements such as character motivations and emotions, causal chains, and event order, and refer to memorable moments that humans can recall without rewatching the movie. Instead of multiple-choice formats, we adopt a binary claim evaluation protocol: for each pair, models must correctly identify both the true and false claims. This reduces biases like answer ordering and enables a more precise assessment of reasoning. Our experiments demonstrate that both open-weight and closed state-of-the-art models fall well short of human performance, underscoring the relative ease of the task for humans and their superior ability to retain and reason over critical narrative information -- an ability current VLMs lack.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩にもかかわらず、現在のベンチマークの制限もあって、長大なビデオコンテンツに対する全体的な理解は重要な課題である。
周辺部, `needle-in-a-haystack'' の詳細に注目し, 深い理解に関する文脈非感受性検索を奨励した。
他のものは、大規模で半自動生成された質問(しばしば言語モデルによって生成される)に依存しており、モデルが簡単に答えられるが、真の理解を反映できない。
本稿では,MF$^2$を導入し,モデルが長編映画(50-170分)の物語情報を理解し,統合し,思い出させることができるかを評価する。
MF$^2$には50以上の完全長の公開ライセンス映画が含まれており、それぞれが手作業で製作されたクレームペアのセットでペアリングされている。
これらの主張は、キャラクターのモチベーションや感情、因果連鎖、出来事の順序といった中核的な物語的要素をターゲットとし、人間が映画を見直さずに思い出せる記憶的な瞬間を言及している。
複数の選択形式の代わりにバイナリクレーム評価プロトコルを採用します。各ペアに対して、モデルは真と偽のクレームの両方を正しく識別する必要があります。
これにより、回答の順序などのバイアスを低減し、推論をより正確に評価することができる。
我々の実験は、オープンウェイトとクローズド・オブ・ザ・アートのモデルの両方が、人間のパフォーマンスにかなり劣っていることを実証し、人間のタスクの相対的容易さと、重要な物語情報を保持し、推論する優れた能力(現在のVLMに欠けている能力)を強調した。
関連論文リスト
- Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。
Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。
最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T16:05:01Z) - SF2T: Self-supervised Fragment Finetuning of Video-LLMs for Fine-Grained Understanding [23.96372422130216]
ビデオベースのLarge Language Models (VideoVid-LLMs) は近年大きく進歩している。
彼らは細かな理解に苦しむが、特に視覚力学やビデオの詳細などの側面においてである。
これらの欠点に対処するため、自己監督的断片化タスクにおける細調整ビデオLLMは、そのきめ細かい映像理解能力を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-10T13:40:34Z) - FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning [15.363132825156477]
大規模視覚言語モデル(LVLM)の評価に適した人中心ベンチマークであるFIOVAを紹介する。
実際のビデオは3,002本(それぞれ33.6本)で、それぞれが5つのアノテーションによって独立して注釈付けされている。
本稿では,アノテータのコンセンサスから得られる認知重みを組み込んだ事象レベルの評価指標であるFIOVA-DQを提案する。
論文 参考訳(メタデータ) (2024-10-20T03:59:54Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。