論文の概要: V2V-Bench: A Comprehensive Benchmark for Video-to-Video Generation Evaluation
- arxiv url: http://arxiv.org/abs/2606.05665v1
- Date: Thu, 04 Jun 2026 03:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.534404
- Title: V2V-Bench: A Comprehensive Benchmark for Video-to-Video Generation Evaluation
- Title(参考訳): V2V-Bench: ビデオ対ビデオ生成評価のための総合ベンチマーク
- Authors: Tao Liu, Leela Krishna, Gouti Pavan Kumar, Sreeja K, Vishav Garg,
- Abstract要約: 出力は編集命令に従い、フレームレベルのソース映像との対応を維持する必要があるため、ビデオ間(V2V)の生成は評価が難しい。
V2V-Benchは、時間的アライメント、構造的忠実度、変換品質、ビデオ品質、セマンティックアライメントの5つのカテゴリに分類されるベンチマークである。
V2V-Benchは、編集タスクに挑戦するさまざまなソースビデオと、Grok ImagineとGemini Veo3という2つの商用モデルと、オープンソースモデルOpen Sora 2.0を組み合わせて評価する。
- 参考スコア(独自算出の注目度): 2.5736307039025057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-to-video (V2V) generation is difficult to evaluate because outputs must both follow editing instructions and preserve frame-level correspondence with the source video, which existing T2V and I2V metrics do not capture. We introduce V2V-Bench, a 11-dimension benchmark organized into five categories: temporal alignment, structural fidelity, transformation quality, video quality, and semantic alignment. V2V-Bench pairs diverse source videos with challenging editing tasks and evaluates two commercial models, Grok Imagine and Gemini Veo3, and one open-source model, Open Sora 2. Results show complementary model strengths: Grok performs better on editing fidelity, while Veo3 achieves stronger visual quality. On six V2V-specific dimensions, V2V-Bench reaches a Spearman correlation of 0.905 with human judgments.
- Abstract(参考訳): 既存のT2VとI2Vのメトリクスが捉えないソースビデオとのフレームレベルの対応を維持するために、出力が編集命令に従う必要があるため、ビデオ間(V2V)の生成は評価が難しい。
V2V-Benchは、時間的アライメント、構造的忠実度、変換品質、ビデオ品質、セマンティックアライメントの5つのカテゴリに分類される11次元のベンチマークである。
V2V-Benchは、編集タスクに挑戦するさまざまなソースビデオと、Grok ImagineとGemini Veo3という2つの商用モデルと、オープンソースモデルOpen Sora 2.0を組み合わせて評価する。
Grokは編集精度が向上し、Veo3は視覚的品質が向上した。
6つのV2V比次元において、V2V-ベンチは人間の判断と0.905のスピアマン相関に達する。
関連論文リスト
- OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation [50.12101313858712]
我々は, (i) きめ細かいベンチマークである OpenS2V-Eval と (ii) 百万規模のデータセットである OpenS2V-5M からなる OpenS2V-Nexus を提案する。
OpenS2V-Evalは、自然の主観的外観とアイデンティティの忠実さを持つ主観的一貫性のあるビデオを生成するモデルの能力に焦点を当てている。
オープンソースの大規模S2V生成データセットOpenS2V-5Mを作成した。
論文 参考訳(メタデータ) (2025-05-26T17:59:46Z) - T2VEval: Benchmark Dataset and Objective Evaluation Method for T2V-generated Videos [9.742383920787413]
T2VEvalはテキスト・ビデオ品質評価のためのマルチブランチ融合方式である。
テキストとビデオの一貫性、現実性、技術的品質の3つの分野にまたがるビデオを評価する。
T2VEvalは、複数のメトリクスにわたる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-15T03:11:33Z) - ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models [13.04745908368858]
オープンソースT2Vモデルによる幻覚映像の大規模データセットであるViBeを紹介する。
10種類のT2Vモデルを用いて、837のMSキャプションから3,782本の動画を手動で作成した。
提案するベンチマークには、幻覚映像のデータセットと、ビデオ埋め込みを用いた分類フレームワークが含まれる。
論文 参考訳(メタデータ) (2024-11-16T19:23:12Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。