論文の概要: DynamicEval: Rethinking Evaluation for Dynamic Text-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2510.07441v1
- Date: Wed, 08 Oct 2025 18:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.67194
- Title: DynamicEval: Rethinking Evaluation for Dynamic Text-to-Video Synthesis
- Title(参考訳): DynamicEval:動的テキスト・ビデオ合成のための再考
- Authors: Nithin C. Babu, Aniruddha Mahapatra, Harsh Rangwani, Rajiv Soundararajan, Kuldeep Kulkarni,
- Abstract要約: 既存のテキスト・トゥ・ビデオ(T2V)評価ベンチマークであるVBenchやEvalCrafterには2つの制限がある。
ダイナミックカメラの動きを強調するプロンプトを体系的にキュレートしたベンチマークであるDynamicEvalを紹介する。
背景環境の整合性を示すために,Vbench運動の滑らか度測定値に基づく解釈可能な誤差マップを得る。
提案手法は,映像レベルとモデルレベルの両方において,人間の嗜好と強い相関関係を示す。
- 参考スコア(独自算出の注目度): 17.750053029702222
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing text-to-video (T2V) evaluation benchmarks, such as VBench and EvalCrafter, suffer from two limitations. (i) While the emphasis is on subject-centric prompts or static camera scenes, camera motion essential for producing cinematic shots and existing metrics under dynamic motion are largely unexplored. (ii) These benchmarks typically aggregate video-level scores into a single model-level score for ranking generative models. Such aggregation, however, overlook video-level evaluation, which is vital to selecting the better video among the candidate videos generated for a given prompt. To address these gaps, we introduce DynamicEval, a benchmark consisting of systematically curated prompts emphasizing dynamic camera motion, paired with 45k human annotations on video pairs from 3k videos generated by ten T2V models. DynamicEval evaluates two key dimensions of video quality: background scene consistency and foreground object consistency. For background scene consistency, we obtain the interpretable error maps based on the Vbench motion smoothness metric. We observe that while the Vbench motion smoothness metric shows promising alignment with human judgments, it fails in two cases: occlusions/disocclusions arising from camera and foreground object movements. Building on this, we propose a new background consistency metric that leverages object error maps to correct two failure cases in a principled manner. Our second innovation is the introduction of a foreground consistency metric that tracks points and their neighbors within each object instance to assess object fidelity. Extensive experiments demonstrate that our proposed metrics achieve stronger correlations with human preferences at both the video level and the model level (an improvement of more than 2% points), establishing DynamicEval as a more comprehensive benchmark for evaluating T2V models under dynamic camera motion.
- Abstract(参考訳): 既存のテキスト・トゥ・ビデオ(T2V)評価ベンチマークであるVBenchやEvalCrafterには2つの制限がある。
(i)被写体中心のプロンプトや静止カメラシーンに重点を置いているが、撮影撮影に不可欠なカメラモーションや、動画像に基づく既存の計測値はほとんど探索されていない。
(ii)これらのベンチマークは通常、ビデオレベルスコアを1つのモデルレベルスコアに集約し、生成モデルにランク付けする。
しかし、このようなアグリゲーションは、与えられたプロンプトで生成された候補ビデオの中から、より良いビデオを選択するために不可欠である、ビデオレベルの評価を見落としている。
このギャップに対処するため,10台のT2Vモデルで生成された3Kビデオから45k人のアノテーションをビデオ対に組み合わせて,ダイナミックカメラの動きを強調した,系統的にキュレートされたプロンプトからなるベンチマークであるDynamicEvalを紹介した。
DynamicEvalは、バックグラウンドシーンの一貫性とフォアグラウンドオブジェクトの一貫性という、ビデオ品質の2つの重要な側面を評価する。
背景環境の整合性を示すために,Vbench運動の滑らか度測定値に基づく解釈可能な誤差マップを得る。
Vbench運動のスムースネス測定は人間の判断と有望な一致を示すが、カメラと前景の物体の動きから生じる閉塞/非閉塞の2例で失敗する。
そこで本研究では,オブジェクトのエラーマップを利用して2つの障害を原則的に修正する,新しいバックグラウンド整合性指標を提案する。
第2のイノベーションは、各オブジェクトインスタンス内のポイントとその隣人を追跡して、オブジェクトの忠実さを評価する、フォアグラウンド整合性メトリクスの導入です。
広汎な実験により,提案手法は映像レベルとモデルレベルの両方において,人間の嗜好とより強い相関関係(2%以上の点の改善)を達成し,ダイナミックカメラ動作下でのT2Vモデル評価のためのより包括的なベンチマークとしてDynamicEvalを確立した。
関連論文リスト
- VideoScore2: Think before You Score in Generative Video Evaluation [69.43069741467603]
VideoScore2は、視覚的品質、テキスト・ツー・ビデオのアライメント、物理的/常識的一貫性を明確に評価する多次元、解釈可能、そして人間によるアライメントフレームワークである。
我々のモデルは、27,168人の注釈付きビデオを含む大規模なデータセットVideoFeedback2で訓練されている。
論文 参考訳(メタデータ) (2025-09-26T18:09:03Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - VMBench: A Benchmark for Perception-Aligned Video Motion Generation [22.891770315274346]
包括的なビデオモーションベンチマークであるVMBenchを紹介する。
VMBenchは知覚対応のモーションメトリクスを持ち、最も多様なモーションを特徴としている。
人間の知覚的アライメントの観点から動画における動きの質が評価されたのはこれが初めてである。
論文 参考訳(メタデータ) (2025-03-13T05:54:42Z) - Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - Improving Unsupervised Video Object Segmentation with Motion-Appearance
Synergy [52.03068246508119]
IMASは、トレーニングや推論において手動のアノテーションを使わずに、主要オブジェクトをビデオに分割する手法である。
IMASはMotion-Appearance Synergyによる改良されたUVOSを実現する。
人間のアノテーションや手作りハイパーパラム特有のメトリクスで調整された重要なハイパーパラムのチューニングにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2022-12-17T06:47:30Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。