論文の概要: Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis
- arxiv url: http://arxiv.org/abs/2504.14470v1
- Date: Sun, 20 Apr 2025 03:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:19:38.491611
- Title: Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis
- Title(参考訳): ターボ2K:超高効率高画質2Kビデオ合成を目指して
- Authors: Jingjing Ren, Wenbo Li, Zhongdao Wang, Haoze Sun, Bangzhen Liu, Haoyu Chen, Jiaqi Xu, Aoxue Li, Shifeng Zhang, Bin Shao, Yong Guo, Lei Zhu,
- Abstract要約: 2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
- 参考スコア(独自算出の注目度): 50.77548592888096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Demand for 2K video synthesis is rising with increasing consumer expectations for ultra-clear visuals. While diffusion transformers (DiTs) have demonstrated remarkable capabilities in high-quality video generation, scaling them to 2K resolution remains computationally prohibitive due to quadratic growth in memory and processing costs. In this work, we propose Turbo2K, an efficient and practical framework for generating detail-rich 2K videos while significantly improving training and inference efficiency. First, Turbo2K operates in a highly compressed latent space, reducing computational complexity and memory footprint, making high-resolution video synthesis feasible. However, the high compression ratio of the VAE and limited model size impose constraints on generative quality. To mitigate this, we introduce a knowledge distillation strategy that enables a smaller student model to inherit the generative capacity of a larger, more powerful teacher model. Our analysis reveals that, despite differences in latent spaces and architectures, DiTs exhibit structural similarities in their internal representations, facilitating effective knowledge transfer. Second, we design a hierarchical two-stage synthesis framework that first generates multi-level feature at lower resolutions before guiding high-resolution video generation. This approach ensures structural coherence and fine-grained detail refinement while eliminating redundant encoding-decoding overhead, further enhancing computational efficiency.Turbo2K achieves state-of-the-art efficiency, generating 5-second, 24fps, 2K videos with significantly reduced computational cost. Compared to existing methods, Turbo2K is up to 20$\times$ faster for inference, making high-resolution video generation more scalable and practical for real-world applications.
- Abstract(参考訳): 2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
拡散変圧器(DiT)は高品質なビデオ生成において顕著な性能を示したが、メモリと処理コストの二次的な増加により、2K解像度にスケールすることは計算的に禁止されている。
本研究はTurbo2Kを提案する。Turbo2Kはディテールリッチな2Kビデオを生成するための効率的かつ実用的なフレームワークであり、トレーニングと推論の効率を大幅に改善する。
第一に、Turbo2Kは高度に圧縮された潜在空間で動作し、計算複雑性とメモリフットプリントを低減し、高解像度のビデオ合成を可能にする。
しかしながら、VAEの高圧縮比と限定モデルサイズは、生成品質に制約を課している。
これを軽減するために,より小規模の学生がより大きな,より強力な教師モデルの生成能力を継承できる知識蒸留戦略を導入する。
解析の結果、潜在空間やアーキテクチャの違いにもかかわらず、DiTは内部表現に構造的類似性を示し、効果的な知識伝達を容易にすることがわかった。
第2に、高解像度ビデオ生成を導く前に、まず低解像度でマルチレベル特徴を生成する階層的な2段階合成フレームワークを設計する。
Turbo2Kは5秒,24fps,2Kビデオを生成し,計算コストを大幅に削減する。
既存の手法と比較して、Turbo2Kは推論で最大20$\times$高速であり、現実世界のアプリケーションで高解像度のビデオ生成をよりスケーラブルで実用的なものにしている。
関連論文リスト
- H3AE: High Compression, High Speed, and High Quality AutoEncoder for Video Diffusion Models [76.1519545010611]
オートエンコーダ(AE)は、画像およびビデオ生成のための潜時拡散モデルの成功の鍵である。
本研究では,アーキテクチャ設計の選択について検討し,効率的な高圧縮ビデオAEを得るために計算分布を最適化する。
我々のAEは、モバイル上での超高圧縮比とリアルタイム復号化速度を達成しつつ、再現率の点で先行技術より優れています。
論文 参考訳(メタデータ) (2025-04-14T17:59:06Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - CascadeV: An Implementation of Wurstchen Architecture for Video Generation [4.086317089863318]
本稿では,最先端の2K解像度ビデオを生成することができるLDM(Latent diffusion model)を提案する。
実験により, 高い圧縮比を達成でき, 高品質ビデオ生成に伴う計算課題を大幅に削減できることが示された。
我々のモデルは既存のT2Vモデルとカスケードすることができ、理論的には、微調整なしで4$times$の解像度やフレームを毎秒増加させることができる。
論文 参考訳(メタデータ) (2025-01-28T01:14:24Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。
本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。
我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-11-02T07:52:18Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - Slimmable Video Codec [24.460763016660685]
本稿では,スリム化可能なオートエンコーダに,スリム化可能な時間エントロピーモデルを統合することで,スリム化可能なビデオ(SlimVC)を提案する。
より複雑なアーキテクチャにもかかわらず、スリム化はレート、メモリフットプリント、計算コスト、レイテンシを制御するための強力なメカニズムのままである。
論文 参考訳(メタデータ) (2022-05-13T16:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。