論文の概要: T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
- arxiv url: http://arxiv.org/abs/2405.18750v2
- Date: Fri, 11 Oct 2024 07:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:28:26.370021
- Title: T2V-Turbo: Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback
- Title(参考訳): T2V-Turbo:Mixed Reward Feedbackによるビデオ一貫性モデルの高品質化
- Authors: Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, Sugato Basu, Wenhu Chen, William Yang Wang,
- Abstract要約: 本稿では,T2V-Turboについて述べる。T2V-Turboは,様々なモデルから得られるフィードバックを,事前学習したT2Vモデルの一貫性蒸留プロセスに統合する。
興味深いことに、我々のT2V-Turboの4段階の世代は、Gen-2とPikaを抜いてVBenchで最高スコアを達成した。
- 参考スコア(独自算出の注目度): 111.40967379458752
- License:
- Abstract: Diffusion-based text-to-video (T2V) models have achieved significant success but continue to be hampered by the slow sampling speed of their iterative sampling processes. To address the challenge, consistency models have been proposed to facilitate fast inference, albeit at the cost of sample quality. In this work, we aim to break the quality bottleneck of a video consistency model (VCM) to achieve $\textbf{both fast and high-quality video generation}$. We introduce T2V-Turbo, which integrates feedback from a mixture of differentiable reward models into the consistency distillation (CD) process of a pre-trained T2V model. Notably, we directly optimize rewards associated with single-step generations that arise naturally from computing the CD loss, effectively bypassing the memory constraints imposed by backpropagating gradients through an iterative sampling process. Remarkably, the 4-step generations from our T2V-Turbo achieve the highest total score on VBench, even surpassing Gen-2 and Pika. We further conduct human evaluations to corroborate the results, validating that the 4-step generations from our T2V-Turbo are preferred over the 50-step DDIM samples from their teacher models, representing more than a tenfold acceleration while improving video generation quality.
- Abstract(参考訳): 拡散に基づくテキスト・ツー・ビデオ(T2V)モデルは大きな成功を収めたが、反復サンプリングプロセスの遅いサンプリング速度によって妨げられ続けている。
この課題に対処するために、サンプル品質のコストにもかかわらず、高速な推論を容易にするために一貫性モデルが提案されている。
本稿では,ビデオ一貫性モデル(VCM)の品質ボトルネックを解消し,高速かつ高品質なビデオ生成を実現することを目的としている。
本稿では,T2V-Turboについて述べる。このT2V-Turboは,様々な報酬モデルから得られるフィードバックを,事前学習したT2Vモデルの一貫性蒸留(CD)プロセスに統合する。
特に、CD損失の計算から自然に生じる単一ステップ世代に関連する報酬を直接最適化し、反復サンプリングプロセスを通じて勾配の逆伝播によるメモリ制約を効果的に回避する。
興味深いことに、我々のT2V-Turboの4段階の世代は、Gen-2とPikaを抜いてVBenchで最高スコアを達成した。
さらに,T2V-Turboの4ステップ世代は,教師モデルから得られた50ステップのDDIMサンプルよりも好まれ,ビデオ生成品質を向上しつつ,10倍以上の加速を示すことが確認された。
関連論文リスト
- One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - FrameBridge: Improving Image-to-Video Generation with Bridge Models [23.19370431940568]
I2V(Image-to-Video)生成はビデオ合成に広く応用され,注目が集まっている。
本稿では, FrameBridgeについて, 与えられた静止画像をビデオの先行画像とし, それらの間のトラクタブルブリッジモデルを確立する。
本研究では,拡散型T2VモデルのFrameBridgeへの微調整効率を向上し,橋梁型I2Vモデルの合成品質を向上させる2つの手法,SNR- Fine-tuning (SAF) とNeural priorを提案する。
論文 参考訳(メタデータ) (2024-10-20T12:10:24Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - IV-Mixed Sampler: Leveraging Image Diffusion Models for Enhanced Video Synthesis [22.79121512759783]
IV-Mixed Samplerは、ビデオ拡散モデルのための新しいトレーニングフリーアルゴリズムである。
IDMを使用して、各ビデオフレームとVDMの品質を高め、サンプリングプロセス中のビデオの時間的コヒーレンスを確保する。
UCF-101-FVD, MSR-VTT-FVD, Chronomagic-Bench-150, Chronomagic-Bench-1649 の4つのベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-10-05T14:33:28Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Improved Techniques for Training Consistency Models [13.475711217989975]
本稿では, 蒸留なしでデータから直接一貫性モデルを学習する, 整合性トレーニングのための改良手法を提案する。
整合性学習目的のための対数正規雑音スケジュールを提案し、トレーニングの繰り返し回数毎に全離散化ステップを2倍にすることを提案する。
これらの修正により、一貫性モデルは1回のサンプリングステップでCIFAR-10で2.51と3.25のFIDスコア、ImageNetで64ドルをそれぞれ達成できる。
論文 参考訳(メタデータ) (2023-10-22T05:33:38Z) - Consistency Models [89.68380014789861]
ノイズを直接データにマッピングすることで,高品質なサンプルを生成する新しいモデル群を提案する。
設計によって高速なワンステップ生成をサポートしながら、マルチステップサンプリングによって、サンプル品質の計算を交換することができる。
イメージインペイント、カラー化、超高解像度といったゼロショットデータ編集も、明示的なトレーニングを必要とせずサポートしている。
論文 参考訳(メタデータ) (2023-03-02T18:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。