論文の概要: Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation
- arxiv url: http://arxiv.org/abs/2506.19348v1
- Date: Tue, 24 Jun 2025 06:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.512118
- Title: Training-Free Motion Customization for Distilled Video Generators with Adaptive Test-Time Distillation
- Title(参考訳): 適応型試験時間蒸留によるビデオ発電機の学習自由運動カスタマイズ
- Authors: Jintao Rong, Xin Xie, Xinyi Yu, Linlin Ou, Xinyu Zhang, Chunhua Shen, Dong Gong,
- Abstract要約: 蒸留ビデオ生成モデルは、高速で効率的なが、参照ビデオによってガイドされるときの動きのカスタマイズに苦労する。
拡散教師の強制力を活用して運動のカスタマイズを可能にする訓練不要な試験時間蒸留フレームワークであるMotionEchoを提案する。
- 参考スコア(独自算出の注目度): 53.877572078307935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilled video generation models offer fast and efficient synthesis but struggle with motion customization when guided by reference videos, especially under training-free settings. Existing training-free methods, originally designed for standard diffusion models, fail to generalize due to the accelerated generative process and large denoising steps in distilled models. To address this, we propose MotionEcho, a novel training-free test-time distillation framework that enables motion customization by leveraging diffusion teacher forcing. Our approach uses high-quality, slow teacher models to guide the inference of fast student models through endpoint prediction and interpolation. To maintain efficiency, we dynamically allocate computation across timesteps according to guidance needs. Extensive experiments across various distilled video generation models and benchmark datasets demonstrate that our method significantly improves motion fidelity and generation quality while preserving high efficiency. Project page: https://euminds.github.io/motionecho/
- Abstract(参考訳): 蒸留ビデオ生成モデルは、高速かつ効率的な合成を提供するが、参照ビデオによってガイドされるとき、特にトレーニング不要な設定下では、動きのカスタマイズに苦労する。
既存のトレーニングフリーな手法は、元々標準拡散モデルのために設計されていたが、加速生成過程と蒸留モデルにおける大きなデノナイジングステップのために一般化に失敗している。
そこで本研究では,拡散教師の強制力を活用して動作のカスタマイズを可能にする,新しいトレーニング不要な試験時間蒸留フレームワークであるMotionEchoを提案する。
提案手法では, 高品質で遅い教師モデルを用いて, エンドポイント予測と補間により, 高速な生徒モデルの推定を導出する。
効率性を維持するため、ガイダンスの要求に応じてタイムステップをまたいだ計算を動的に割り当てる。
種々の蒸留ビデオ生成モデルとベンチマークデータセットの大規模な実験により,高い効率を保ちながら,動作の忠実度と生成品質を大幅に向上することを示した。
プロジェクトページ: https://euminds.github.io/motionecho/
関連論文リスト
- Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization [50.30051934609654]
本稿では,数段階のビデオ生成を実現するため,変量点蒸留と整合蒸留を組み合わせた蒸留法を提案する。
提案手法は10秒ビデオ(12FPSで128フレーム)の複数ステップ生成における最先端性能を示す。
1段階の蒸留により、教師モデルの拡散サンプリングを最大278.6倍加速し、ほぼリアルタイムで生成できる。
論文 参考訳(メタデータ) (2024-12-20T09:07:36Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - AnimateLCM: Computation-Efficient Personalized Style Video Generation without Personalized Video Data [45.20627288830823]
同様のサイズのビデオ拡散モデルの必要な生成時間を25秒から1秒程度に短縮する。
この手法の有効性は、二重レベルデカップリング学習アプローチにある。
論文 参考訳(メタデータ) (2024-02-01T16:58:11Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。