論文の概要: SuperGen: An Efficient Ultra-high-resolution Video Generation System with Sketching and Tiling
- arxiv url: http://arxiv.org/abs/2508.17756v1
- Date: Mon, 25 Aug 2025 07:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.680779
- Title: SuperGen: An Efficient Ultra-high-resolution Video Generation System with Sketching and Tiling
- Title(参考訳): SuperGen:スケッチとタイリングを併用した高効率超高解像度ビデオ生成システム
- Authors: Fanjiang Ye, Zepeng Zhao, Yi Mu, Jucheng Shen, Renjie Li, Kaijian Wang, Desen Sun, Saurabh Agarwal, Myungjin Lee, Triston Cao, Aditya Akella, Arvind Krishnamurthy, T. S. Eugene Ng, Zhengzhong Tu, Yuke Wang,
- Abstract要約: SuperGenは、超高解像度ビデオ生成のための効率的なタイルベースのフレームワークである。
追加の訓練をせずに広範囲の解像度をサポートする。
SuperGenにはタイルで調整された、適応的で、リージョン対応のキャッシュ戦略が組み込まれている。
- 参考スコア(独自算出の注目度): 27.96742776792205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently achieved remarkable success in generative tasks (e.g., image and video generation), and the demand for high-quality content (e.g., 2K/4K videos) is rapidly increasing across various domains. However, generating ultra-high-resolution videos on existing standard-resolution (e.g., 720p) platforms remains challenging due to the excessive re-training requirements and prohibitively high computational and memory costs. To this end, we introduce SuperGen, an efficient tile-based framework for ultra-high-resolution video generation. SuperGen features a novel training-free algorithmic innovation with tiling to successfully support a wide range of resolutions without additional training efforts while significantly reducing both memory footprint and computational complexity. Moreover, SuperGen incorporates a tile-tailored, adaptive, region-aware caching strategy that accelerates video generation by exploiting redundancy across denoising steps and spatial regions. SuperGen also integrates cache-guided, communication-minimized tile parallelism for enhanced throughput and minimized latency. Evaluations demonstrate that SuperGen harvests the maximum performance gains while achieving high output quality across various benchmarks.
- Abstract(参考訳): 拡散モデルは最近、生成タスク(例えば、画像やビデオ生成)において顕著な成功を収めており、高品質なコンテンツ(例えば、2K/4Kビデオ)の需要は、様々な領域で急速に増加している。
しかし、既存の標準解像度(例えば720p)プラットフォーム上で超高解像度ビデオを生成することは、過剰な再トレーニング要件と、計算とメモリのコストが禁じられているため、依然として困難である。
そこで我々は,超高解像度ビデオ生成のための効率的なタイルベースのフレームワークであるSuperGenを紹介する。
SuperGenは、メモリフットプリントと計算の複雑さを著しく減らしながら、追加のトレーニング努力なしで広範囲の解像度をサポートするために、タイリングを使った新しいトレーニング不要のアルゴリズム革新を特徴としている。
さらに、SuperGenはタイルを調整し、適応的で、地域対応のキャッシュ戦略を導入し、デノナイジングステップと空間領域をまたいだ冗長性を活用することで、ビデオ生成を加速する。
SuperGenはまた、スループットの向上とレイテンシの最小化のために、キャッシュ誘導、通信最小化のタイル並列処理を統合している。
評価の結果、SuperGenは様々なベンチマークで高い出力品質を実現しつつ、最大のパフォーマンス向上を達成している。
関連論文リスト
- CineScale: Free Lunch in High-Resolution Cinematic Visual Generation [42.81729840016782]
我々は,高解像度な視覚生成を実現するための新しい推論パラダイムであるCineScaleを提案する。
提案手法は,8k画像生成を微調整なしで実現し,最小限のLoRA微調整で4kビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-08-21T17:59:57Z) - Taming Diffusion Transformer for Real-Time Mobile Video Generation [72.20660234882594]
Diffusion Transformer (DiT) はビデオ生成タスクにおいて高いパフォーマンスを示しているが、その高い計算コストは、スマートフォンのようなリソース制約のあるデバイスでは実用的ではない。
本稿では,ビデオ生成の高速化とモバイルプラットフォーム上でのリアルタイムパフォーマンスの実現を目的とした,新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:10Z) - Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - Fast and Memory-Efficient Video Diffusion Using Streamlined Inference [41.505829393818274]
現在のビデオ拡散モデルは、計算要求と高いピークメモリ使用量を示す。
本稿では,映像拡散モデルの時間的・空間的特性を利用したストリーム線形推論を提案する。
我々のアプローチはピークメモリと計算オーバーヘッドを大幅に削減し、単一のコンシューマGPU上で高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-11-02T07:52:18Z) - AIM 2024 Challenge on Efficient Video Super-Resolution for AV1 Compressed Content [56.552444900457395]
ビデオスーパーレゾリューション(VSR)は、特にストリーミングアプリケーションにおいて、低ビットレートおよび低解像度ビデオを強化するための重要なタスクである。
本研究では,これらの課題に対処するために様々な手法をコンパイルし,その解決策はエンドツーエンドのビデオ超解像フレームワークである。
提案されたソリューションは、一般的なケースとして540pから4K(x4)、モバイルデバイス向けに調整された360pから1080p(x3)の2つのアプリケーションのためのビデオアップスケーリングに取り組む。
論文 参考訳(メタデータ) (2024-09-25T18:12:19Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。