論文の概要: Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation
- arxiv url: http://arxiv.org/abs/2509.26555v1
- Date: Tue, 30 Sep 2025 17:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.228757
- Title: Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation
- Title(参考訳): 安定したシネメトリックス : 構造化分類学とプロのビデオ生成のための評価
- Authors: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani,
- Abstract要約: フィルム製造制御を4つの非交叉階層制御ノードに形式化するフレームワークであるStable Cinemetricsを紹介する。
10以上のモデルと20Kビデオにまたがる大規模な人間研究を行い、80以上の映画専門家のプールで注釈を付けました。
SCINEは、ビデオ生成モデルのランドスケープにプロの動画生成を集中させる最初のアプローチである。
- 参考スコア(独自算出の注目度): 78.24409139109507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in video generation have enabled high-fidelity video synthesis from user provided prompts. However, existing models and benchmarks fail to capture the complexity and requirements of professional video generation. Towards that goal, we introduce Stable Cinemetrics, a structured evaluation framework that formalizes filmmaking controls into four disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera. Together, these taxonomies define 76 fine-grained control nodes grounded in industry practices. Using these taxonomies, we construct a benchmark of prompts aligned with professional use cases and develop an automated pipeline for prompt categorization and question generation, enabling independent evaluation of each control dimension. We conduct a large-scale human study spanning 10+ models and 20K videos, annotated by a pool of 80+ film professionals. Our analysis, both coarse and fine-grained reveal that even the strongest current models exhibit significant gaps, particularly in Events and Camera-related controls. To enable scalable evaluation, we train an automatic evaluator, a vision-language model aligned with expert annotations that outperforms existing zero-shot baselines. SCINE is the first approach to situate professional video generation within the landscape of video generative models, introducing taxonomies centered around cinematic controls and supporting them with structured evaluation pipelines and detailed analyses to guide future research.
- Abstract(参考訳): 近年のビデオ生成の進歩により、ユーザが提供するプロンプトから高忠実度ビデオ合成が可能になった。
しかし、既存のモデルとベンチマークは、プロのビデオ生成の複雑さと要求を捉えていない。
この目標に向けて,フィルム製造制御を4つの非構造的分類(セットアップ,イベント,ライティング,カメラ)に形式化する構造化評価フレームワークであるStable Cinemetricsを紹介した。
これらの分類体系は、業界慣行に根ざした76のきめ細かい制御ノードを定義している。
これらの分類学を用いて、専門家のユースケースに合わせたプロンプトのベンチマークを構築し、各制御次元を独立的に評価できるような、素早い分類と質問生成のための自動パイプラインを開発する。
10以上のモデルと20Kビデオにまたがる大規模な人間研究を行い、80以上の映画専門家のプールで注釈を付けました。
私たちの分析では、特にイベントやカメラ関連のコントロールにおいて、最強の現行モデルでさえ大きなギャップがあることが分かりました。
スケーラブルな評価を実現するために,既存のゼロショットベースラインよりも優れた専門家アノテーションに整合した視覚言語モデルである自動評価器を訓練する。
SCINEは、映像生成モデルの景観にプロの映像生成を集中させ、映画制御を中心とした分類を導入し、それらを構造化された評価パイプラインと詳細な分析で支援する最初のアプローチである。
関連論文リスト
- MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation [48.84450712826316]
MSVBenchは、マルチショットビデオ生成に適した階層的なスクリプトと参照イメージを備えた最初の包括的なベンチマークである。
本稿では,大規模マルチモーダルモデルの高レベルな意味推論と,ドメイン固有のエキスパートモデルの微粒な知覚的厳密さを相乗化するハイブリッド評価フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T12:26:34Z) - UniVBench: Towards Unified Evaluation for Video Foundation Models [29.73247324829126]
ビデオファウンデーションモデルは、ビデオ理解、生成、編集、インストラクションを単一のフレームワークに統合することを目的としている。
UniVBenchは、4つのコア能力にまたがるビデオ基盤モデルを評価するためのベンチマークである。
本ベンチマークでは,200本の高画質・多機能・マルチショット映像を取り入れることで,評価の複雑さを大幅に拡大する。
論文 参考訳(メタデータ) (2026-02-25T12:08:53Z) - RISE-Video: Can Video Generators Decode Implicit World Rules? [71.92434352963427]
テキスト画像合成(TI2V)の先駆的推論指向ベンチマークであるRISE-Videoを提案する。
RISE-Videoは、8つの厳格なカテゴリにまたがる、細心の注意深い人手によるサンプル467種からなる。
本研究では,LMM(Large Multimodal Models)を利用して人中心評価をエミュレートする自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-05T18:36:10Z) - VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。
本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。
我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-30T14:12:21Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - MSG score: A Comprehensive Evaluation for Multi-Scene Video Generation [0.0]
本稿では,連続シナリオに基づくマルチシーンビデオの生成に必要なメトリクスについて述べる。
ビデオ生成では、単一の画像とは異なり、フレーム間の文字の動きは歪みや意図しない変化のような潜在的な問題を引き起こす。
本稿では,このプロセスを自動化するスコアベース評価ベンチマークを提案し,これらの複雑さをより客観的かつ効率的に評価する。
論文 参考訳(メタデータ) (2024-11-28T13:11:50Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。