論文の概要: TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2406.08656v1
- Date: Wed, 12 Jun 2024 21:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 21:57:45.014710
- Title: TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation
- Title(参考訳): TC-Bench: テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成における時間構成性のベンチマーク
- Authors: Weixi Feng, Jiachen Li, Michael Saxon, Tsu-jui Fu, Wenhu Chen, William Yang Wang,
- Abstract要約: 生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
- 参考スコア(独自算出の注目度): 97.96178992465511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation has many unique challenges beyond those of image generation. The temporal dimension introduces extensive possible variations across frames, over which consistency and continuity may be violated. In this study, we move beyond evaluating simple actions and argue that generated videos should incorporate the emergence of new concepts and their relation transitions like in real-world videos as time progresses. To assess the Temporal Compositionality of video generation models, we propose TC-Bench, a benchmark of meticulously crafted text prompts, corresponding ground truth videos, and robust evaluation metrics. The prompts articulate the initial and final states of scenes, effectively reducing ambiguities for frame development and simplifying the assessment of transition completion. In addition, by collecting aligned real-world videos corresponding to the prompts, we expand TC-Bench's applicability from text-conditional models to image-conditional ones that can perform generative frame interpolation. We also develop new metrics to measure the completeness of component transitions in generated videos, which demonstrate significantly higher correlations with human judgments than existing metrics. Our comprehensive experimental results reveal that most video generators achieve less than 20% of the compositional changes, highlighting enormous space for future improvement. Our analysis indicates that current video generation models struggle to interpret descriptions of compositional changes and synthesize various components across different time steps.
- Abstract(参考訳): ビデオ生成には、画像生成以上の多くのユニークな課題がある。
時間次元は、フレーム間の広範なバリエーションを導入し、その上で一貫性と連続性に反する可能性がある。
本研究では、単純な行動を評価することを超えて、生成したビデオは、時間経過とともに現実のビデオのように、新しい概念の出現とそれらの関係の遷移を取り入れるべきである、と論じる。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
プロンプトはシーンの初期状態と最終状態を明確にし、フレーム開発における曖昧さを効果的に低減し、遷移完了の評価を簡素化する。
さらに,プロンプトに対応する実世界の映像を収集することにより,TC-Benchの適用性をテキスト条件モデルから生成フレーム補間が可能な画像条件モデルに拡張する。
また、生成ビデオにおけるコンポーネント遷移の完全性を測定するための新しい指標を開発し、既存の指標よりも人間の判断との相関が著しく高いことを示す。
総括的な実験結果から,ほとんどのビデオジェネレータは構成変化の20%未満を達成でき,将来的な改善のための膨大な空間を浮き彫りにしていることがわかった。
分析の結果、現在のビデオ生成モデルは、構成変化の記述を解釈し、異なる時間ステップで様々な成分を合成するのに苦労していることがわかった。
関連論文リスト
- Neuro-Symbolic Evaluation of Text-to-Video Models using Formalf Verification [5.468979600421325]
我々は,新しい合成ビデオ評価指標であるNeuS-Vを紹介する。
NeuS-Vは、ニューロシンボリック形式検証技術を用いて、テキストとビデオのアライメントを厳格に評価する。
既存の指標と比較すると,NeuS-Vは5倍以上の相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-11-22T23:59:12Z) - Pose-Guided Fine-Grained Sign Language Video Generation [18.167413937989867]
本稿では,細粒度かつ動きに一貫性のある手話ビデオを生成するための新しい Pose-Guided Motion Model (PGMM) を提案する。
まず,光学式フローワープによる特徴量の変形を解消する新しい粗い運動モジュール(CMM)を提案する。
第2に、RGBのモーダル融合とポーズ特徴を導く新しいPose Fusion Module (PFM)を提案する。
論文 参考訳(メタデータ) (2024-09-25T07:54:53Z) - T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation [55.57459883629706]
コンポジションテキスト・ビデオ生成に関する最初の体系的研究を行う。
合成テキスト・ビデオ生成に適した最初のベンチマークであるT2V-CompBenchを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - Diverse Video Captioning by Adaptive Spatio-temporal Attention [7.96569366755701]
エンド・ツー・エンドのエンコーダ・デコーダ・ビデオキャプション・フレームワークには2つのトランスフォーマー・ベースのアーキテクチャが組み込まれている。
本稿では,必要なフレーム数を削減するための適応フレーム選択方式を提案する。
ビデオキャプションに関するセマンティックな概念を,各サンプルのすべての接頭辞の真実を集約することで推定する。
論文 参考訳(メタデータ) (2022-08-19T11:21:59Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。