論文の概要: Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation
- arxiv url: http://arxiv.org/abs/2509.26555v1
- Date: Tue, 30 Sep 2025 17:22:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.228757
- Title: Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation
- Title(参考訳): 安定したシネメトリックス : 構造化分類学とプロのビデオ生成のための評価
- Authors: Agneet Chatterjee, Rahim Entezari, Maksym Zhuravinskyi, Maksim Lapin, Reshinth Adithyan, Amit Raj, Chitta Baral, Yezhou Yang, Varun Jampani,
- Abstract要約: フィルム製造制御を4つの非交叉階層制御ノードに形式化するフレームワークであるStable Cinemetricsを紹介する。
10以上のモデルと20Kビデオにまたがる大規模な人間研究を行い、80以上の映画専門家のプールで注釈を付けました。
SCINEは、ビデオ生成モデルのランドスケープにプロの動画生成を集中させる最初のアプローチである。
- 参考スコア(独自算出の注目度): 78.24409139109507
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in video generation have enabled high-fidelity video synthesis from user provided prompts. However, existing models and benchmarks fail to capture the complexity and requirements of professional video generation. Towards that goal, we introduce Stable Cinemetrics, a structured evaluation framework that formalizes filmmaking controls into four disentangled, hierarchical taxonomies: Setup, Event, Lighting, and Camera. Together, these taxonomies define 76 fine-grained control nodes grounded in industry practices. Using these taxonomies, we construct a benchmark of prompts aligned with professional use cases and develop an automated pipeline for prompt categorization and question generation, enabling independent evaluation of each control dimension. We conduct a large-scale human study spanning 10+ models and 20K videos, annotated by a pool of 80+ film professionals. Our analysis, both coarse and fine-grained reveal that even the strongest current models exhibit significant gaps, particularly in Events and Camera-related controls. To enable scalable evaluation, we train an automatic evaluator, a vision-language model aligned with expert annotations that outperforms existing zero-shot baselines. SCINE is the first approach to situate professional video generation within the landscape of video generative models, introducing taxonomies centered around cinematic controls and supporting them with structured evaluation pipelines and detailed analyses to guide future research.
- Abstract(参考訳): 近年のビデオ生成の進歩により、ユーザが提供するプロンプトから高忠実度ビデオ合成が可能になった。
しかし、既存のモデルとベンチマークは、プロのビデオ生成の複雑さと要求を捉えていない。
この目標に向けて,フィルム製造制御を4つの非構造的分類(セットアップ,イベント,ライティング,カメラ)に形式化する構造化評価フレームワークであるStable Cinemetricsを紹介した。
これらの分類体系は、業界慣行に根ざした76のきめ細かい制御ノードを定義している。
これらの分類学を用いて、専門家のユースケースに合わせたプロンプトのベンチマークを構築し、各制御次元を独立的に評価できるような、素早い分類と質問生成のための自動パイプラインを開発する。
10以上のモデルと20Kビデオにまたがる大規模な人間研究を行い、80以上の映画専門家のプールで注釈を付けました。
私たちの分析では、特にイベントやカメラ関連のコントロールにおいて、最強の現行モデルでさえ大きなギャップがあることが分かりました。
スケーラブルな評価を実現するために,既存のゼロショットベースラインよりも優れた専門家アノテーションに整合した視覚言語モデルである自動評価器を訓練する。
SCINEは、映像生成モデルの景観にプロの映像生成を集中させ、映画制御を中心とした分類を導入し、それらを構造化された評価パイプラインと詳細な分析で支援する最初のアプローチである。
関連論文リスト
- VideoGen-Eval: Agent-based System for Video Generation Evaluation [54.662739174367836]
ビデオ生成は、最先端のモデルを評価するのに、既存の評価システムを不十分にしている。
本稿では,コンテンツ構造化,MLLMに基づくコンテンツ判断,時空間次元のパッチツールを統合したエージェント評価システムであるVideoGen-Evalを提案する。
我々は,既存の最先端モデルを評価するためのビデオ生成ベンチマークを導入し,評価システムの有効性を検証する。
論文 参考訳(メタデータ) (2025-03-30T14:12:21Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。