論文の概要: OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation
- arxiv url: http://arxiv.org/abs/2505.20292v4
- Date: Tue, 03 Jun 2025 10:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.641505
- Title: OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation
- Title(参考訳): OpenS2V-Nexus: ビデオ生成のための詳細なベンチマークと数百万スケールデータセット
- Authors: Shenghai Yuan, Xianyi He, Yufan Deng, Yang Ye, Jinfa Huang, Bin Lin, Jiebo Luo, Li Yuan,
- Abstract要約: 我々は, (i) きめ細かいベンチマークである OpenS2V-Eval と (ii) 百万規模のデータセットである OpenS2V-5M からなる OpenS2V-Nexus を提案する。
OpenS2V-Evalは、自然の主観的外観とアイデンティティの忠実さを持つ主観的一貫性のあるビデオを生成するモデルの能力に焦点を当てている。
オープンソースの大規模S2V生成データセットOpenS2V-5Mを作成した。
- 参考スコア(独自算出の注目度): 50.12101313858712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subject-to-Video (S2V) generation aims to create videos that faithfully incorporate reference content, providing enhanced flexibility in the production of videos. To establish the infrastructure for S2V generation, we propose OpenS2V-Nexus, consisting of (i) OpenS2V-Eval, a fine-grained benchmark, and (ii) OpenS2V-5M, a million-scale dataset. In contrast to existing S2V benchmarks inherited from VBench that focus on global and coarse-grained assessment of generated videos, OpenS2V-Eval focuses on the model's ability to generate subject-consistent videos with natural subject appearance and identity fidelity. For these purposes, OpenS2V-Eval introduces 180 prompts from seven major categories of S2V, which incorporate both real and synthetic test data. Furthermore, to accurately align human preferences with S2V benchmarks, we propose three automatic metrics, NexusScore, NaturalScore and GmeScore, to separately quantify subject consistency, naturalness, and text relevance in generated videos. Building on this, we conduct a comprehensive evaluation of 18 representative S2V models, highlighting their strengths and weaknesses across different content. Moreover, we create the first open-source large-scale S2V generation dataset OpenS2V-5M, which consists of five million high-quality 720P subject-text-video triples. Specifically, we ensure subject-information diversity in our dataset by (1) segmenting subjects and building pairing information via cross-video associations and (2) prompting GPT-Image-1 on raw frames to synthesize multi-view representations. Through OpenS2V-Nexus, we deliver a robust infrastructure to accelerate future S2V generation research.
- Abstract(参考訳): Subject-to-Video(S2V)生成は、参照コンテンツを忠実に組み込んだビデオを作成し、ビデオ制作の柔軟性を高めることを目的としている。
S2V生成のための基盤を確立するために,OpenS2V-Nexusを提案する。
(i)OpenS2V-Eval、きめ細かいベンチマーク、そして
(ii)OpenS2V-5M、百万規模のデータセット。
VBenchから受け継いだ既存のS2Vベンチマークとは対照的に、OpenS2V-Evalは、自然の主観的外観とアイデンティティの忠実さを持つ主観的一貫性のあるビデオを生成するモデルの能力に焦点を当てている。
これらの目的のために、OpenS2V-EvalはS2Vの7つの主要なカテゴリから180のプロンプトを導入している。
さらに,人間の嗜好をS2Vベンチマークと正確に整合させるため,NexusScore,NaturalScore,GmeScoreの3つの自動測定基準を提案する。
これに基づいて18の代表的なS2Vモデルの総合的な評価を行い、その強みと弱点を異なるコンテンツにわたって強調する。
さらに,オープンソースの大規模S2V生成データセットOpenS2V-5Mを作成した。
具体的には,(1)対象のセグメンテーションと,(2)映像の相互関連によるペアリング情報の構築,(2)生フレーム上でのGPT-Image-1による多視点表現の合成により,データセットの主観的情報多様性を確保する。
OpenS2V-Nexusを通じて、将来のS2V世代の研究を加速するための堅牢なインフラを提供します。
関連論文リスト
- xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation [33.62365864717086]
本稿では,表現的キャプションを備えた高精度な高品質データセットOpenVid-1Mを紹介する。
また、OpenVid-1Mから433K 1080pのビデオをキュレートしてOpenVidHD-0.4Mを作成し、高精細ビデオ生成を推進した。
論文 参考訳(メタデータ) (2024-07-02T15:40:29Z) - Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment [54.00254267259069]
現在までに最大規模のテキスト・ビデオ品質評価データベース(T2VQA-DB)を構築している。
データセットは、9つの異なるT2Vモデルによって生成される1万のビデオで構成されている。
主観的テキスト・ビデオ品質評価(T2VQA)のためのトランスフォーマーに基づく新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-03-18T16:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。