論文の概要: MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation
- arxiv url: http://arxiv.org/abs/2602.23969v1
- Date: Fri, 27 Feb 2026 12:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.418625
- Title: MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation
- Title(参考訳): MSVBench:マルチショットビデオ生成の人間レベル評価を目指して
- Authors: Haoyuan Shi, Yunxin Li, Nanhao Deng, Zhenran Xu, Xinyu Chen, Longyue Wang, Baotian Hu, Min Zhang,
- Abstract要約: MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。
本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.84450712826316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evolution of video generation toward complex, multi-shot narratives has exposed a critical deficit in current evaluation methods. Existing benchmarks remain anchored to single-shot paradigms, lacking the comprehensive story assets and cross-shot metrics required to assess long-form coherence and appeal. To bridge this gap, we introduce MSVBench, the first comprehensive benchmark featuring hierarchical scripts and reference images tailored for Multi-Shot Video generation. We propose a hybrid evaluation framework that synergizes the high-level semantic reasoning of Large Multimodal Models (LMMs) with the fine-grained perceptual rigor of domain-specific expert models. Evaluating 20 video generation methods across diverse paradigms, we find that current models--despite strong visual fidelity--primarily behave as visual interpolators rather than true world models. We further validate the reliability of our benchmark by demonstrating a state-of-the-art Spearman's rank correlation of 94.4% with human judgments. Finally, MSVBench extends beyond evaluation by providing a scalable supervisory signal. Fine-tuning a lightweight model on its pipeline-refined reasoning traces yields human-aligned performance comparable to commercial models like Gemini-2.5-Flash.
- Abstract(参考訳): 複雑なマルチショット物語への映像生成の進化は、現在の評価方法に重大な欠陥を露呈している。
既存のベンチマークはシングルショットのパラダイムに固定されており、長期的な一貫性と魅力を評価するために必要な包括的なストーリーアセットとクロスショットメトリクスが欠如している。
このギャップを埋めるために,マルチショットビデオ生成に適した階層的スクリプトと参照画像を備えた最初の総合ベンチマークであるMSVBenchを紹介する。
本稿では,LMM(Large Multimodal Models)の高レベルセマンティック推論を,ドメイン固有専門家モデルのきめ細かな知覚的厳密さと併用するハイブリッド評価フレームワークを提案する。
様々なパラダイムにまたがる20の動画生成手法を評価すると、現在のモデルは、強い視覚的忠実さにもかかわらず、主に真の世界モデルではなく視覚的補間者として振る舞うことが分かる。
我々は、現在最先端のスピアマンのランクの94.4%と人間の判断との相関を示すことで、ベンチマークの信頼性をさらに検証する。
最後に、MSVBenchはスケーラブルな監視信号を提供することで評価を超えて拡張する。
パイプライン修正された推論トレース上で軽量モデルを微調整すると、Gemini-2.5-Flashのような商用モデルに匹敵する、ヒューマンアラインなパフォーマンスが得られる。
関連論文リスト
- GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks? [29.804627410258732]
我々は、ペアワイズ比較パラダイムを活用する統一評価フレームワークを導入し、安定的かつ人道的な評価を確実にする。
提案手法は,評価精度を20%以上向上し,信頼性の高いLMArenaリーダボードとSpearmanの0.86の相関性を実現する。
論文 参考訳(メタデータ) (2026-02-05T18:52:48Z) - RISE-Video: Can Video Generators Decode Implicit World Rules? [71.92434352963427]
テキスト画像合成(TI2V)の先駆的推論指向ベンチマークであるRISE-Videoを提案する。
RISE-Videoは、8つの厳格なカテゴリにまたがる、細心の注意深い人手によるサンプル467種からなる。
本研究では,LMM(Large Multimodal Models)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-05T18:36:10Z) - VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - ConceptMix++: Leveling the Playing Field in Text-to-Image Benchmarking via Iterative Prompt Optimization [20.935028961216325]
ConceptMix++は、ビジュアルジェネレーション機能からプロンプトのフレーズをアンタングルするフレームワークである。
最適化されたプロンプトは構成生成性能を大幅に向上することを示す。
これらの結果から,厳密なベンチマーク手法が真のモデル能力を著しく過小評価している可能性が示唆された。
論文 参考訳(メタデータ) (2025-07-04T03:27:04Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。