論文の概要: SRDiffusion: Accelerate Video Diffusion Inference via Sketching-Rendering Cooperation
- arxiv url: http://arxiv.org/abs/2505.19151v1
- Date: Sun, 25 May 2025 13:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.938411
- Title: SRDiffusion: Accelerate Video Diffusion Inference via Sketching-Rendering Cooperation
- Title(参考訳): SRDiffusion:Sketching-Rendering Cooperationによるビデオ拡散の高速化
- Authors: Shenggan Cheng, Yuanxin Wei, Lansong Diao, Yong Liu, Bujiao Chen, Lianghua Huang, Yu Liu, Wenyuan Yu, Jiangsu Du, Wei Lin, Yang You,
- Abstract要約: SRDiffusionは、大小モデルの協調を利用して推論コストを削減する新しいフレームワークである。
提案手法は,既存のアクセラレーション戦略の新たな方向性として導入され,スケーラブルなビデオ生成のための実用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 26.045123066151838
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Leveraging the diffusion transformer (DiT) architecture, models like Sora, CogVideoX and Wan have achieved remarkable progress in text-to-video, image-to-video, and video editing tasks. Despite these advances, diffusion-based video generation remains computationally intensive, especially for high-resolution, long-duration videos. Prior work accelerates its inference by skipping computation, usually at the cost of severe quality degradation. In this paper, we propose SRDiffusion, a novel framework that leverages collaboration between large and small models to reduce inference cost. The large model handles high-noise steps to ensure semantic and motion fidelity (Sketching), while the smaller model refines visual details in low-noise steps (Rendering). Experimental results demonstrate that our method outperforms existing approaches, over 3$\times$ speedup for Wan with nearly no quality loss for VBench, and 2$\times$ speedup for CogVideoX. Our method is introduced as a new direction orthogonal to existing acceleration strategies, offering a practical solution for scalable video generation.
- Abstract(参考訳): 拡散トランスフォーマー(DiT)アーキテクチャを活用することで、Sora、CogVideoX、Wanといったモデルは、テキスト・トゥ・ビデオ、画像・トゥ・ビデオ、ビデオ編集タスクにおいて顕著な進歩を遂げた。
これらの進歩にもかかわらず、拡散に基づくビデオ生成は計算集約的であり、特に高解像度の長期化ビデオでは顕著である。
以前の作業は、計算をスキップすることで推論を加速する。
本稿では,大小モデル間の協調を利用して推論コストを削減する新しいフレームワークであるSRDiffusionを提案する。
大きなモデルはセマンティックとモーションの忠実さを保証するために高ノイズステップを処理し、小さなモデルは低ノイズステップ(レンダリング)で視覚的詳細を洗練する。
実験の結果,本手法は既存の手法よりも優れており,VBenchの品質損失がほとんどないWanでは3$\times$スピードアップ,CogVideoXでは2$\times$スピードアップであることがわかった。
提案手法は,既存のアクセラレーション戦略に直交する新たな方向として導入され,スケーラブルなビデオ生成のための実用的なソリューションを提供する。
関連論文リスト
- DOVE: Efficient One-Step Diffusion Model for Real-World Video Super-Resolution [43.83739935393097]
実世界のビデオ超解像のための効率的なワンステップ拡散モデルであるDOVEを提案する。
DOVEは、事前訓練されたビデオ拡散モデル(*,*, CogVideoX)を微調整することによって得られる。
実験により、DOVEは多段階拡散型VSR法と同等または優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2025-05-22T05:16:45Z) - VISION-XL: High Definition Video Inverse Problem Solver using Latent Image Diffusion Models [58.464465016269614]
本稿では,遅延画像拡散モデルを用いた高精細ビデオ逆問題の解法を提案する。
提案手法は,NVIDIA 4090 GPUの1フレームあたり6秒未満でHD解像度の再構成を実現する。
論文 参考訳(メタデータ) (2024-11-29T08:10:49Z) - Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。
本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。
我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-11-02T07:52:18Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。