論文の概要: Are Synthetic Videos Useful? A Benchmark for Retrieval-Centric Evaluation of Synthetic Videos
- arxiv url: http://arxiv.org/abs/2507.02316v1
- Date: Thu, 03 Jul 2025 05:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.677102
- Title: Are Synthetic Videos Useful? A Benchmark for Retrieval-Centric Evaluation of Synthetic Videos
- Title(参考訳): 合成ビデオは有用か? : 合成ビデオの検索中心評価のためのベンチマーク
- Authors: Zecheng Zhao, Selena Song, Tong Chen, Zhi Chen, Shazia Sadiq, Yadan Luo,
- Abstract要約: 検索モデル構築のための合成ビデオの有用性を評価するために設計された新しいデータセットとベンチマークであるSynTVAを紹介する。
我々は最先端のT2Vモデルを用いて合成ビデオを生成し、各ビデオテキスト対を4つのキーセマンティックアライメント次元に沿ってアノテートする。
評価フレームワークは、これらのアライメントスコアと一般的なビデオ品質評価(VQA)メトリクスを関連付け、下流のテキスト・ビデオ検索性能の予測能力について検討する。
- 参考スコア(独自算出の注目度): 16.36132851725219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video (T2V) synthesis has advanced rapidly, yet current evaluation metrics primarily capture visual quality and temporal consistency, offering limited insight into how synthetic videos perform in downstream tasks such as text-to-video retrieval (TVR). In this work, we introduce SynTVA, a new dataset and benchmark designed to evaluate the utility of synthetic videos for building retrieval models. Based on 800 diverse user queries derived from MSRVTT training split, we generate synthetic videos using state-of-the-art T2V models and annotate each video-text pair along four key semantic alignment dimensions: Object \& Scene, Action, Attribute, and Prompt Fidelity. Our evaluation framework correlates general video quality assessment (VQA) metrics with these alignment scores, and examines their predictive power for downstream TVR performance. To explore pathways of scaling up, we further develop an Auto-Evaluator to estimate alignment quality from existing metrics. Beyond benchmarking, our results show that SynTVA is a valuable asset for dataset augmentation, enabling the selection of high-utility synthetic samples that measurably improve TVR outcomes. Project page and dataset can be found at https://jasoncodemaker.github.io/SynTVA/.
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)合成は急速に進歩しているが、現在の評価基準は主に視覚的品質と時間的一貫性を捉え、合成ビデオがテキスト・トゥ・ビデオ検索(TVR)のような下流のタスクでどのように機能するかについての限られた洞察を提供する。
本研究では,検索モデル構築のための合成ビデオの有用性を評価するための新しいデータセットとベンチマークであるSynTVAを紹介する。
MSRVTTトレーニング分割から得られた800種類のユーザクエリに基づいて、最先端のT2Vモデルを用いて合成ビデオを生成し、各ビデオテキストペアを4つの主要なセマンティックアライメント次元(オブジェクト \& Scene, Action, Attribute, Prompt Fidelity)に沿ってアノテートする。
評価フレームワークは、これらのアライメントスコアと一般的なビデオ品質評価(VQA)メトリクスを関連付け、下流TVRの性能予測能力について検討する。
スケールアップの経路を探るため,既存のメトリクスからアライメント品質を推定するAuto-Evaluatorを開発した。
ベンチマークの他に、SynTVAはデータセット拡張に有用な資産であり、TVRの結果を測定可能な高ユーティリティな合成サンプルの選択を可能にした。
プロジェクトページとデータセットはhttps://jasoncodemaker.github.io/SynTVA/で見ることができる。
関連論文リスト
- Neuro-Symbolic Evaluation of Text-to-Video Models using Formal Verification [5.468979600421325]
我々は,新しい合成ビデオ評価指標であるNeuS-Vを紹介する。
NeuS-Vは、ニューロシンボリック形式検証技術を用いて、テキストとビデオのアライメントを厳格に評価する。
既存の指標と比較すると,NeuS-Vは5倍以上の相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-22T23:59:12Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Towards A Better Metric for Text-to-Video Generation [102.16250512265995]
生成モデルは高品質のテキスト、画像、ビデオの合成において顕著な能力を示した。
新たな評価パイプラインであるText-to-Video Score(T2VScore)を導入する。
本尺度は,(1)テキスト記述における映像の忠実度を精査するテキスト・ビデオ・アライメント,(2)ビデオ品質,(2)ビデオ全体の製作口径を専門家の混合で評価するビデオ品質の2つの重要な基準を統合した。
論文 参考訳(メタデータ) (2024-01-15T15:42:39Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。