論文の概要: VideoScore2: Think before You Score in Generative Video Evaluation
- arxiv url: http://arxiv.org/abs/2509.22799v1
- Date: Fri, 26 Sep 2025 18:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.880164
- Title: VideoScore2: Think before You Score in Generative Video Evaluation
- Title(参考訳): VideoScore2: ジェネレーティブなビデオ評価で評価される前に考える
- Authors: Xuan He, Dongfu Jiang, Ping Nie, Minghao Liu, Zhengxuan Jiang, Mingyi Su, Wentao Ma, Junru Lin, Chun Ye, Yi Lu, Keming Wu, Benjamin Schneider, Quy Duc Do, Zhuofeng Li, Yiming Jia, Yuxuan Zhang, Guo Cheng, Haozhe Wang, Wangchunshu Zhou, Qunshu Lin, Yuanxing Zhang, Ge Zhang, Wenhao Huang, Wenhu Chen,
- Abstract要約: VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。
我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
- 参考スコア(独自算出の注目度): 69.43069741467603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-video generation have produced increasingly realistic and diverse content, yet evaluating such videos remains a fundamental challenge due to their multi-faceted nature encompassing visual quality, semantic alignment, and physical consistency. Existing evaluators and reward models are limited to single opaque scores, lack interpretability, or provide only coarse analysis, making them insufficient for capturing the comprehensive nature of video quality assessment. We present VideoScore2, a multi-dimensional, interpretable, and human-aligned framework that explicitly evaluates visual quality, text-to-video alignment, and physical/common-sense consistency while producing detailed chain-of-thought rationales. Our model is trained on a large-scale dataset VideoFeedback2 containing 27,168 human-annotated videos with both scores and reasoning traces across three dimensions, using a two-stage pipeline of supervised fine-tuning followed by reinforcement learning with Group Relative Policy Optimization (GRPO) to enhance analytical robustness. Extensive experiments demonstrate that VideoScore2 achieves superior performance with 44.35 (+5.94) accuracy on our in-domain benchmark VideoScore-Bench-v2 and 50.37 (+4.32) average performance across four out-of-domain benchmarks (VideoGenReward-Bench, VideoPhy2, etc), while providing interpretable assessments that bridge the gap between evaluation and controllable generation through effective reward modeling for Best-of-N sampling. Project Page: https://tiger-ai-lab.github.io/VideoScore2/
- Abstract(参考訳): テキスト・ビデオ生成の最近の進歩は、ますます現実的で多様なコンテンツを生み出してきたが、視覚的品質、セマンティック・アライメント、物理的整合性を含む多面的な性質のため、そのようなビデオを評価することは根本的な課題である。
既存の評価モデルと報酬モデルは、単一の不透明なスコアに制限され、解釈可能性の欠如、あるいは粗い分析のみを提供し、ビデオ品質評価の包括的な性質を捉えるには不十分である。
視覚的品質,テキスト・ツー・ビデオのアライメント,物理・常識の整合性を明確に評価し,より詳細なチェーン・オブ・シークエンスを創出する多次元,解釈可能な,人間によるアライメントフレームワークであるVideoScore2を提案する。
本モデルは,大規模データセットであるVideoFeedback2を用いて,3次元にまたがる2段階の微調整パイプラインと,グループ相対ポリシー最適化(GRPO)による強化学習を用いて,解析的堅牢性の向上を図る。
大規模な実験により、VideoScore2は44.35 (+5.94) の精度で、我々のドメイン内ベンチマークであるVideoScore-Bench-v2と50.37 (+4.32) の4つの外部ベンチマーク(VideoGenReward-Bench、VideoPhy2など)の平均性能を達成し、Best-of-Nサンプリングのための効果的な報酬モデリングによって評価と制御可能な生成のギャップを埋める解釈可能な評価を提供する。
Project Page: https://tiger-ai-lab.github.io/VideoScore2/
関連論文リスト
- VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文 参考訳(メタデータ) (2025-05-29T14:34:25Z) - T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T03:11:33Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。