論文の概要: DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder
- arxiv url: http://arxiv.org/abs/2509.25182v1
- Date: Mon, 29 Sep 2025 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.157775
- Title: DC-VideoGen: Efficient Video Generation with Deep Compression Video Autoencoder
- Title(参考訳): DC-VideoGen:ディープ圧縮ビデオオートエンコーダによる効率的なビデオ生成
- Authors: Junyu Chen, Wenkun He, Yuchao Gu, Yuyang Zhao, Jincheng Yu, Junsong Chen, Dongyun Zou, Yujun Lin, Zhekai Zhang, Muyang Li, Haocheng Xi, Ligeng Zhu, Enze Xie, Song Han, Han Cai,
- Abstract要約: DC-VideoGenは、事前訓練されたビデオ拡散モデルに適用することができる。
軽量な微調整を施した深部圧縮潜伏空間に適応することができる。
- 参考スコア(独自算出の注目度): 55.26098043655325
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce DC-VideoGen, a post-training acceleration framework for efficient video generation. DC-VideoGen can be applied to any pre-trained video diffusion model, improving efficiency by adapting it to a deep compression latent space with lightweight fine-tuning. The framework builds on two key innovations: (i) a Deep Compression Video Autoencoder with a novel chunk-causal temporal design that achieves 32x/64x spatial and 4x temporal compression while preserving reconstruction quality and generalization to longer videos; and (ii) AE-Adapt-V, a robust adaptation strategy that enables rapid and stable transfer of pre-trained models into the new latent space. Adapting the pre-trained Wan-2.1-14B model with DC-VideoGen requires only 10 GPU days on the NVIDIA H100 GPU. The accelerated models achieve up to 14.8x lower inference latency than their base counterparts without compromising quality, and further enable 2160x3840 video generation on a single GPU. Code: https://github.com/dc-ai-projects/DC-VideoGen.
- Abstract(参考訳): 我々は,効率的な映像生成のためのポストトレーニングアクセラレーションフレームワークDC-VideoGenを紹介する。
DC-VideoGenは、任意のトレーニング済みビデオ拡散モデルに適用でき、軽量な微調整で深部圧縮潜在空間に適応することで効率を向上させることができる。
このフレームワークは2つの重要なイノベーションの上に構築されている。
一 再生品質及び長大ビデオへの一般化を保ちつつ、32x/64x空間及び4x時間圧縮を実現する新規なチャンク因果時間設計を有するディープ圧縮ビデオオートコーダ
(II) AE-Adapt-Vは、事前学習されたモデルの新しい潜在空間への高速かつ安定した移動を可能にする頑健な適応戦略である。
トレーニング済みのWan-2.1-14BモデルをDC-VideoGenに適合させるには、NVIDIA H100 GPU上で10日しかかからない。
アクセラレーションされたモデルは、品質を損なうことなくベースモデルよりも14.8倍低い推論レイテンシを実現し、1つのGPU上で2160x3840ビデオ生成を可能にする。
コード:https://github.com/dc-ai-projects/DC-VideoGen。
関連論文リスト
- SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer [116.17385614259574]
SANA-Videoは、720×1280の解像度と分長のビデオを効率よく生成できる小さな拡散モデルである。
2つのコア設計により、効率的な、効果的で、長いビデオ生成が保証されます。
コストの安いSANA-Videoは、現代の最先端の小さな拡散モデルと比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2025-09-29T12:28:09Z) - GSVR: 2D Gaussian-based Video Representation for 800+ FPS with Hybrid Deformation Field [7.977026024810772]
ビデオの暗黙の神経表現は、新しくて有望なビデオ表現として認識されている。
本稿では,新しい2次元ガウス映像表現であるGSVRを提案し,Bunny上で800FPS以上,35PSNR以上を達成している。
本手法は既存の手法よりもはるかに高速に収束し,他の手法に比べて10倍高速に復号できる。
論文 参考訳(メタデータ) (2025-07-08T02:13:12Z) - GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting [10.568851068989973]
Implicit Neural Representation for Videos (NeRV) はビデオ表現と圧縮のための新しいパラダイムを導入した。
データハンドリングを効率的に処理するための2次元ガウススプラッティングに基づく新しいビデオ表現と手法を提案する。
メモリ使用量を最大78.4%削減し,ビデオ処理を大幅に高速化し,5.5倍高速トレーニング,12.5倍高速デコードを実現した。
論文 参考訳(メタデータ) (2025-03-06T11:31:08Z) - LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。
Video-VAEとDenoising Transformerをシームレスに統合する。
Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文 参考訳(メタデータ) (2024-12-30T19:00:25Z) - REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。
我々は、ビデオには画像よりもはるかに冗長な情報が含まれており、非常に少ない動きでエンコードできると主張している。
我々は、映像を非常に圧縮された潜在空間に投影する画像条件付きVAEを設計し、コンテンツ画像に基づいてデコードする。
論文 参考訳(メタデータ) (2024-11-20T18:59:52Z) - MagicVideo: Efficient Video Generation With Latent Diffusion Models [76.95903791630624]
我々はMagicVideoと呼ばれる遅延拡散モデルに基づく効率的なテキスト・ビデオ生成フレームワークを提案する。
低次元空間における映像の配布をモデル化する新しい3次元U-Netの設計により、MagicVideoは1枚のGPUカード上で256×256の空間解像度でビデオクリップを合成できる。
我々は広範な実験を行い、MagicVideoが現実的または虚構的なコンテンツで高品質なビデオクリップを作成できることを実証した。
論文 参考訳(メタデータ) (2022-11-20T16:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。