論文の概要: EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation
- arxiv url: http://arxiv.org/abs/2605.23271v1
- Date: Fri, 22 May 2026 06:22:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.222851
- Title: EvalVerse: Pipeline-Aware and Expert-Calibrated Benchmarking for Professional Cinematic Video Generation
- Title(参考訳): EvalVerse: プロのシネマビデオ生成のためのパイプライン認識とエキスパート校正ベンチマーク
- Authors: Songlin Yang, Haobin Zhong, Ruilin Zhang, Xiaotong Zhao, Shuai Li, Kai Zheng, Xuyi Yang, Zhe Wang, Zhenchen Tang, Yang Li, Bohai Gu, Zhengwei Peng, Yidan Huang, Mengzhou Luo, Yihang Bo, Dalu Feng, Yujia Zhang, Juntao Ma, Ruiqi Wang, Lvmin Zhang, Yuwei Guo, Frank Guan, Maneesh Agrawala, Hongbo Fu, Alan Zhao, Anyi Rao,
- Abstract要約: EvalVerseは包括的でパイプライン対応で、専門家による評価フレームワークです。
まず、専門的な映画制作ワークフローに沿った評価分類にドメイン知識を整理する。
第2に、人間の専門家による判断を、大規模な人的アノテーションによるキュレートされたデータセットに蒸留する。
第3に、専門家による微調整戦略を通じて、この知識を視覚言語モデル(VLM)に注入する。
- 参考スコア(独自算出の注目度): 59.569634087474185
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid evolution of generative video foundation models has propelled the field toward professional-grade cinematic synthesis. To achieve such demanding quality, the community transitions towards Reinforcement Learning (RL) and agentic workflows. However, reliable evaluation has emerged as a critical bottleneck. Existing benchmarks predominantly evaluate ''whether it is right'' (basic prompt-following) while fundamentally neglecting ''whether it is good'' (cinematic quality, acting, and aesthetics). Furthermore, current automated metrics lack the domain-specific rigor required to provide trustworthy signals, creating a severe credibility gap between human aesthetic perception and machine scoring. To bridge this gap, we introduce EvalVerse, a comprehensive, pipeline-aware, and expert-calibrated evaluation framework. We treat video generation assessment not merely as an engineering task, but as a core scientific problem: the systematic digitization of subjective cinematic expertise. First, we organize domain knowledge into an evaluation taxonomy aligned with the professional filmmaking workflow (pre-production, production, and post-production). Second, we distill human expert judgments into a curated dataset with large-scale human annotations. Third, we inject this knowledge into Vision-Language Models (VLMs) through an expert-calibrated fine-tuning strategy, enabling the VLM to perform explicit Chain-of-Thought reasoning. Compared to previous works, EvalVerse not only retains compatibility with foundational ''rightness'' metrics, but also significantly expands the criteria to ''goodness'' and broaden the task coverage to complex multi-shot sequencing and audio-visual integration. Consequently, by providing granular diagnostic signals, EvalVerse transcends a static leaderboard and establishes a fundamental infrastructure for future work, such as reward models and evaluator agent.
- Abstract(参考訳): 生成ビデオ基盤モデルの急速な進化は、プロフェッショナルグレードの映画合成に向けての分野を推進してきた。
このような要求の高い品質を達成するため、コミュニティは強化学習(RL)やエージェントワークフローへと移行する。
しかし、信頼性評価が重要なボトルネックとして浮上している。
既存のベンチマークでは「正しいかどうか」を概ね評価し、基本的に「良いかどうか」を無視している(シネマティック品質、演技、美学)。
さらに、現在の自動メトリクスは、信頼できる信号を提供するのに必要なドメイン固有の厳密さを欠き、人間の美的知覚とマシンスコアの間に深刻な信頼性のギャップを生じさせる。
このギャップを埋めるために、私たちは、包括的なパイプライン対応、専門家による校正評価フレームワークであるEvalVerseを紹介します。
我々は、映像生成評価を単なる工学的タスクではなく、主観的な映画専門知識の体系的なデジタル化という科学的な問題として扱う。
まず、ドメイン知識を、プロの映画製作ワークフロー(プレプロダクション、プロダクション、ポストプロダクション)に沿った評価分類に整理する。
第2に、人間の専門家による判断を、大規模な人的アノテーションによるキュレートされたデータセットに蒸留する。
第3に、専門家による微調整戦略を通じて、この知識を視覚言語モデル(VLM)に注入し、VLMが明確な連鎖推論を行うことを可能にする。
以前の研究と比較すると、EvalVerseは基礎となる'正しい'メトリクスとの互換性を維持しているだけでなく、'良い'基準を大幅に拡張し、複雑なマルチショットシークエンシングとオーディオ-視覚統合にタスクカバレッジを広げている。
その結果、詳細な診断信号を提供することで、EvalVerseは静的なリーダーボードを超越し、報酬モデルや評価エージェントといった将来の作業のための基盤を確立する。
関連論文リスト
- Q-DeepSight: Incentivizing Thinking with Images for Image Quality Assessment and Refinement [58.15004031934379]
我々は、この人間のようなプロセスをエミュレートする思考とイメージのフレームワークであるQ-DeepSightを提案する。
Q-DeepSightは、自然、復元、AI生成コンテンツなど、さまざまなベンチマークで最先端のパフォーマンスを実現している。
本稿では,Q-DeepSight の診断が反復画像強調を導くトレーニングフリーフレームワークであるPerceptual-in-Generation (PiG) を用いて,その実用的価値を示す。
論文 参考訳(メタデータ) (2026-04-18T06:10:57Z) - Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models [15.709482146201283]
現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。
この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
論文 参考訳(メタデータ) (2026-02-02T07:20:02Z) - Trustworthy Evaluation of Robotic Manipulation: A New Benchmark and AutoEval Methods [30.612032540735402]
Eval-ActionsベンチマークとAutoEvalアーキテクチャを組み合わせたソリューションを提案する。
このデータセットは、Expert Grading(EG)、Rang-Guided preferences(RG)、Chain-of-Thought(CoT)の3つのコア監視信号を中心に構成されている。
AutoEval は EG プロトコルと RG プロトコルでそれぞれ 0.81 と 0.84 のSpearman's Rank correlation Coefficients (SRCC) を達成している。
論文 参考訳(メタデータ) (2026-01-26T17:47:42Z) - VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - NovisVQ: A Streaming Convolutional Neural Network for No-Reference Opinion-Unaware Frame Quality Assessment [39.76658525158528]
コンピュータビジョンタスクにはビデオ品質評価(VQA)が不可欠だが、既存のアプローチには大きな制約がある。
我々は、参照も意見も意識しないスケーラブルでストリーミングベースのVQAモデルを提案する。
論文 参考訳(メタデータ) (2025-11-06T18:23:55Z) - Stable Cinemetrics : Structured Taxonomy and Evaluation for Professional Video Generation [78.24409139109507]
フィルム製造制御を4つの非交叉階層制御ノードに形式化するフレームワークであるStable Cinemetricsを紹介する。
10以上のモデルと20Kビデオにまたがる大規模な人間研究を行い、80以上の映画専門家のプールで注釈を付けました。
SCINEは、ビデオ生成モデルのランドスケープにプロの動画生成を集中させる最初のアプローチである。
論文 参考訳(メタデータ) (2025-09-30T17:22:18Z) - EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation [17.37840331449749]
本稿では,ストーリー評価のための自己進化的ペアワイズ推論(EvolvR)フレームワークを提案する。
フレームワークはまず、マルチペルソナ戦略を通じてスコア整合型Chain-of-Thought(CoT)データを自己合成する。
精巧なデータに基づいて訓練された評価器を報奨モデルとして展開し、ストーリー生成タスクを誘導する。
論文 参考訳(メタデータ) (2025-08-08T06:10:47Z) - Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。