論文の概要: Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis
- arxiv url: http://arxiv.org/abs/2507.13753v1
- Date: Fri, 18 Jul 2025 08:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.23375
- Title: Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis
- Title(参考訳): 高品質ビデオ合成のためのテキスト・ツー・イメージモデルとテキスト・ツー・ビデオモデルのカプセル化構成
- Authors: Tongtong Su, Chengyu Wang, Bingyan Liu, Jun Huang, Dongming Lu,
- Abstract要約: 本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介し,視覚的忠実度と動きの滑らかさを両立させる。
提案手法は,低品質ビデオフレームを改良するために,よく訓練された拡散ベースT2Iモデルを用いる。
また、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
- 参考スコア(独自算出の注目度): 14.980220974022982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large text-to-video (T2V) synthesis models have garnered considerable attention for their abilities to generate videos from textual descriptions. However, achieving both high imaging quality and effective motion representation remains a significant challenge for these T2V models. Existing approaches often adapt pre-trained text-to-image (T2I) models to refine video frames, leading to issues such as flickering and artifacts due to inconsistencies across frames. In this paper, we introduce EVS, a training-free Encapsulated Video Synthesizer that composes T2I and T2V models to enhance both visual fidelity and motion smoothness of generated videos. Our approach utilizes a well-trained diffusion-based T2I model to refine low-quality video frames by treating them as out-of-distribution samples, effectively optimizing them with noising and denoising steps. Meanwhile, we employ T2V backbones to ensure consistent motion dynamics. By encapsulating the T2V temporal-only prior into the T2I generation process, EVS successfully leverages the strengths of both types of models, resulting in videos of improved imaging and motion quality. Experimental results validate the effectiveness of our approach compared to previous approaches. Our composition process also leads to a significant improvement of 1.6x-4.5x speedup in inference time. Source codes: https://github.com/Tonniia/EVS.
- Abstract(参考訳): 近年,大規模なテキスト・ビデオ合成モデル (T2V) がテキスト記述からビデオを生成する能力に注目が集まっている。
しかし、これらのT2Vモデルでは、高画質と効果的な動き表現の両方を達成することが大きな課題である。
既存のアプローチはしばしば、訓練済みのテキスト・トゥ・イメージ(T2I)モデルにビデオフレームを洗練させるように適応し、フレーム間の不整合によるフリッカリングやアーティファクトなどの問題を引き起こす。
本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介する。
提案手法では, 拡散型T2Iモデルを用いて, 低品質ビデオフレームを分布外サンプルとして扱い, ノイズ発生とノイズ発生を効果的に最適化する。
一方、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
T2Vの時間のみをT2I生成プロセスにカプセル化することで、EVSは両方のモデルの強みをうまく活用し、画像とモーションクオリティが改善される。
実験により, 従来のアプローチと比較して, 提案手法の有効性が検証された。
また, コンポジションプロセスは, 推算時間において1.6x-4.5xの高速化を実現した。
ソースコードはhttps://github.com/Tonniia/EVS。
関連論文リスト
- Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance [70.12690940725092]
アダプティブローパスガイダンス(ALG)は、よりダイナミックなビデオを生成するためのI2Vモデルサンプリング手順の簡単な修正である。
VBench-I2Vテストスイートでは、ALGはビデオ品質や画像の忠実度を大幅に低下させることなく、ダイナミック度の平均36%の改善を実現している。
論文 参考訳(メタデータ) (2025-06-10T05:23:46Z) - Incorporating Flexible Image Conditioning into Text-to-Video Diffusion Models without Training [27.794381157153776]
フレキシブル・ビジュアル・コンディショニングによるTI2V生成のための統一型定式化を提案する。
我々は、任意の量の画像に対してT2V基礎モデルを条件付けることができるFlexTI2Vと呼ばれる革新的なトレーニングフリーアプローチを提案する。
本手法は,従来のトレーニング不要の画像条件付け手法を顕著なマージンで上回っている。
論文 参考訳(メタデータ) (2025-05-27T02:16:06Z) - Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model [133.01510927611452]
我々は、30Bationalパラメータと最大204フレームの動画を生成する機能を備えた、テキストからビデオまでの事前トレーニングモデルであるStep-Video-T2Vを提案する。
Vari Autoencoder (Vari Autoencoder, Video-VAE) はビデオ生成タスク用に設計されており、16x16空間圧縮比と8x時間圧縮比を達成している。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、最先端のテキスト・ビデオの品質を示している。
論文 参考訳(メタデータ) (2025-02-14T15:58:10Z) - FrameBridge: Improving Image-to-Video Generation with Bridge Models [21.888786343816875]
拡散モデルは画像間(I2V)生成において顕著な進歩を遂げた。
彼らのノイズ・ツー・データ生成プロセスは、本質的にこのタスクと一致していないため、最適下合成の品質につながる可能性がある。
フレーム・ツー・フレーム生成過程をブリッジモデルに基づくデータ・ツー・データ生成プロセスでモデル化することにより、与えられた画像に含まれる情報を完全に活用することができる。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。
ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。
提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-06T05:46:17Z) - VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。
我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文 参考訳(メタデータ) (2024-03-08T16:44:54Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。