論文の概要: UltraGen: High-Resolution Video Generation with Hierarchical Attention
- arxiv url: http://arxiv.org/abs/2510.18775v1
- Date: Tue, 21 Oct 2025 16:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.919494
- Title: UltraGen: High-Resolution Video Generation with Hierarchical Attention
- Title(参考訳): UltraGen:階層的注意による高解像度ビデオ生成
- Authors: Teng Hu, Jiangning Zhang, Zihan Su, Ran Yi,
- Abstract要約: UltraGenは、(i)効率的で(i)ネイティブな高解像度ビデオ合成を可能にする、新しいビデオ生成フレームワークである。
我々は,UltraGenが事前学習した低解像度ビデオモデルを1080P,さらに4K解像度に効果的に拡張できることを実証した。
- 参考スコア(独自算出の注目度): 62.99161115650818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation have made it possible to produce visually compelling videos, with wide-ranging applications in content creation, entertainment, and virtual reality. However, most existing diffusion transformer based video generation models are limited to low-resolution outputs (<=720P) due to the quadratic computational complexity of the attention mechanism with respect to the output width and height. This computational bottleneck makes native high-resolution video generation (1080P/2K/4K) impractical for both training and inference. To address this challenge, we present UltraGen, a novel video generation framework that enables i) efficient and ii) end-to-end native high-resolution video synthesis. Specifically, UltraGen features a hierarchical dual-branch attention architecture based on global-local attention decomposition, which decouples full attention into a local attention branch for high-fidelity regional content and a global attention branch for overall semantic consistency. We further propose a spatially compressed global modeling strategy to efficiently learn global dependencies, and a hierarchical cross-window local attention mechanism to reduce computational costs while enhancing information flow across different local windows. Extensive experiments demonstrate that UltraGen can effectively scale pre-trained low-resolution video models to 1080P and even 4K resolution for the first time, outperforming existing state-of-the-art methods and super-resolution based two-stage pipelines in both qualitative and quantitative evaluations.
- Abstract(参考訳): 近年のビデオ生成の進歩により、コンテンツ制作、エンターテイメント、バーチャルリアリティーに広く応用された視覚的に魅力的なビデオが作成できるようになった。
しかし、既存の拡散トランスフォーマーベースのビデオ生成モデルは、出力幅と高さに関する注意機構の2次計算複雑性のため、低解像度の出力(=720P)に制限されている。
この計算ボトルネックにより、ネイティブな高解像度ビデオ生成(1080P/2K/4K)は、トレーニングと推論の両方において実用的ではない。
この課題に対処するために、我々はUltraGenという新しいビデオ生成フレームワークを提案する。
one (複数形 ones)
ii) エンド・ツー・エンドの高解像度ビデオ合成。
特に、UltraGenは、グローバルな局所的な注意分解に基づく階層的な二重ブランチアテンションアーキテクチャを備えており、これは、高忠実な地域コンテンツのためのローカルアテンションブランチと、全体的なセマンティック一貫性のためのグローバルアテンションブランチに、完全にアテンションを分離する。
さらに,グローバルな依存関係を効率的に学習するための空間圧縮型グローバルモデリング戦略と,異なるローカルウィンドウ間の情報フローを向上しつつ,計算コストを削減する階層的クロスウィンドウローカルアテンション機構を提案する。
大規模な実験により、UltraGenはトレーニング済みの低解像度ビデオモデルを1080P、さらには4K解像度に効果的にスケールでき、定性評価と定量的評価の両方において既存の最先端の手法と超高解像度の2段階パイプラインより優れていることが示されている。
関連論文リスト
- Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - SuperGen: An Efficient Ultra-high-resolution Video Generation System with Sketching and Tiling [27.96742776792205]
SuperGenは、超高解像度ビデオ生成のための効率的なタイルベースのフレームワークである。
追加の訓練をせずに広範囲の解像度をサポートする。
SuperGenにはタイルで調整された、適応的で、リージョン対応のキャッシュ戦略が組み込まれている。
論文 参考訳(メタデータ) (2025-08-25T07:49:17Z) - CineScale: Free Lunch in High-Resolution Cinematic Visual Generation [42.81729840016782]
我々は,高解像度な視覚生成を実現するための新しい推論パラダイムであるCineScaleを提案する。
提案手法は,8k画像生成を微調整なしで実現し,最小限のLoRA微調整で4kビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-08-21T17:59:57Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Turbo2K: Towards Ultra-Efficient and High-Quality 2K Video Synthesis [50.77548592888096]
2Kビデオ合成の需要は、超明快なビジュアルに対する消費者の期待が高まるにつれて増大している。
Turbo2Kはディテールリッチな2Kビデオを生成するための効率的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-20T03:30:59Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - An Efficient Recurrent Adversarial Framework for Unsupervised Real-Time
Video Enhancement [132.60976158877608]
対比ビデオの例から直接学習する効率的な対比ビデオ強化フレームワークを提案する。
特に,空間的情報と時間的情報の暗黙的統合のための局所的モジュールとグローバルモジュールからなる新しい再帰的セルを導入する。
提案する設計では,フレーム間の情報伝達を効率的に行うことができ,複雑なネットワークの必要性を低減できる。
論文 参考訳(メタデータ) (2020-12-24T00:03:29Z) - HRVGAN: High Resolution Video Generation using Spatio-Temporal GAN [0.0]
本稿では,高解像度ビデオ合成に特化して設計された新しい深層生成ネットワークアーキテクチャを提案する。
我々のアプローチは、Wasserstein Generative Adrial Networks (WGANs) のキーコンセプトを統合している。
トレーニングの目的は、フレームレベルの精度とビデオリアリズムのバランスをとるために、画素単位の平均2乗誤差損失と対角損失を組み合わせることである。
論文 参考訳(メタデータ) (2020-08-17T20:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。