論文の概要: Dynamic Video Generation: Shaping Video Generation Across Time and Space
- arxiv url: http://arxiv.org/abs/2605.21042v1
- Date: Wed, 20 May 2026 11:24:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.641833
- Title: Dynamic Video Generation: Shaping Video Generation Across Time and Space
- Title(参考訳): ダイナミック・ビデオ・ジェネレーション:時間と空間にまたがるビデオ・ジェネレーション
- Authors: Shikang Zheng, Jingkai Huang, Jiacheng Liu, Guantao Chen, Lixuan, Yuqi Lin, Peiliang Cai, Linfeng Zhang,
- Abstract要約: DVGは,手動のチューニングやリトレーニングなしに,コンテンツ認識型アクセラレーション戦略を自動的に選択するフレームワークである。
DVGは、HunyuanVideoとHunyuanVideo-1.51.5で最大7倍、蒸留と組み合わせて18倍のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 9.269520155517094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have achieved impressive performance in video generation, but their iterative denoising process remains computationally expensive due to the large number of tokens processed at each timestep. Recently, progressive resolution sampling has emerged as a promising acceleration approach by reducing latent resolution in early stages. However, scaling this idea to video generation remains challenging, as the additional temporal dimension introduces diverse spatio-temporal demands across different videos, and compressing only a single dimension often leads to limited acceleration or degraded quality. Therefore, we propose DVG, a Dynamic Video Generation framework that jointly allocates computation across time and space, automatically selecting content-aware acceleration strategies without manual tuning or retraining. DVG achieves near-lossless acceleration across models and tasks, reaching up to 7 times speedup on HunyuanVideo and HunyuanVideo-1.5, and 18 times when combined with distillation, demonstrating its potential as a key component in today's large-scale efficient video generation systems. Our code is in supplementary material and will be released on Github.
- Abstract(参考訳): 拡散モデルはビデオ生成において顕著な性能を達成してきたが、各タイミングで処理される大量のトークンのため、反復的復調処理は計算コストがかかるままである。
近年、進行分解能サンプリングは、早期に潜時分解能を低下させることにより、有望な加速手法として出現している。
しかし、このアイデアをビデオ生成に拡張することは依然として困難であり、追加の時間次元は異なるビデオに多様な時空間的要求をもたらす。
そこで本稿では,動的ビデオ生成フレームワークであるDVGを提案する。
DVGは、HunyuanVideoとHunyuanVideo-1.5で最大7倍のスピードアップを達成し、蒸留と組み合わせて18倍のスピードアップを実現している。
私たちのコードは補足的な素材で、Githubでリリースされます。
関連論文リスト
- Inference-based GAN Video Generation [47.53991869205973]
可変エンコーダを用いた対向型非条件ビデオジェネレータの実現により,新しいタイプのビデオジェネレータを提案する。
既存のモデルは、生成されたビデオの時間的スケーリングに苦労する。
私たちは、数百から数千のフレームからなる長いビデオを生成するために、新しい、メモリ効率のアプローチを採用しています。
論文 参考訳(メタデータ) (2025-12-25T20:14:38Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device [61.42406720183769]
本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2024-12-13T18:59:56Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。