論文の概要: PixelWizard: Towards Efficient High-Fidelity Video Generation at Ultra-Large Spatial Resolution
- arxiv url: http://arxiv.org/abs/2605.25801v1
- Date: Mon, 25 May 2026 12:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.05061
- Title: PixelWizard: Towards Efficient High-Fidelity Video Generation at Ultra-Large Spatial Resolution
- Title(参考訳): PixelWizard:超高解像度高精細映像の高精細化を目指して
- Authors: Wenxue Li, Jingjing Ren, Peng Zhang, Tian Ye, Daiguo Zhou, Jian Luan, Lei Zhu,
- Abstract要約: PixelWizardは、ネイティブな2K/4Kビデオの生成サンプリングを10倍高速化しながら、優れた視覚的品質を実現している。
PixelWizardは、ネイティブな2K/4Kビデオの生成サンプリングを10倍以上加速しながら、優れた視覚的品質を実現している。
- 参考スコア(独自算出の注目度): 29.787554159107486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution video generation faces a coupled bottleneck of optimization instability and prohibitive computational costs. The massive expansion of the token sequence not only biases optimization toward local textures at the expense of global coherence, leading to structural collapse, but also imposes prohibitive training costs and severe inference latency. To address this, we propose PixelWizard, a framework that hierarchically decouples global structure modeling from fine-grained detail synthesis. PixelWizard first establishes a compact spatiotemporal anchor to concentrate dense structural priors, which then guides fine-grained generation at high resolution. This mitigates the local optimization bias to ensure structural stability without compromising high-frequency details. Leveraging this structural stability, we introduce Noise-Span Aligned Shortcut Training to break the inference bottleneck. By explicitly modeling the step size, this mechanism allows the model to traverse the generation trajectory with large steps. Crucially, we incorporate Exponential Index-Biased Sampling and Adaptive Noise-Span Calibration to align optimization with the shifted noise schedules of high-resolution grids, ensuring robust few-step inference without incurring the heavy overhead of distillation. Extensive experiments demonstrate that PixelWizard achieves superior visual quality while accelerating the generative sampling of native 2K/4K videos by over 10x.
- Abstract(参考訳): 高解像度ビデオ生成は、最適化の不安定性と禁忌な計算コストのボトルネックを兼ね備えている。
トークンシーケンスの大規模な拡張は、グローバルコヒーレンスを犠牲にして局所的なテクスチャに対する最適化をバイアスするだけでなく、構造的崩壊を招き、禁止的なトレーニングコストと厳しい推論遅延を課す。
これを解決するために,我々は,微細な詳細合成からグローバル構造モデリングを階層的に分離するフレームワークであるPixelWizardを提案する。
PixelWizardは、まず、高解像度で微細な生成をガイドする、高密度な構造先行を集中させるために、コンパクトな時空間アンカーを確立する。
これにより、局所最適化バイアスを緩和し、高周波の詳細を妥協することなく構造安定性を確保する。
この構造安定性を生かして,予測ボトルネックを解消するためにノイズスパンアラインドショートカットトレーニングを導入する。
ステップサイズを明示的にモデル化することで、このメカニズムはモデルが生成軌跡を大きなステップで横切ることを可能にする。
重要なことは,高分解能グリッドのシフトノイズスケジュールに最適化を合わせるために,指数バイアスサンプリングと適応雑音補正を導入し,蒸留の過大なオーバーヘッドを発生させることなく,頑健な数ステップの推論を確実にする。
大規模な実験により、PixelWizardは、ネイティブな2K/4Kビデオの生成サンプリングを10倍以上加速しながら、優れた視覚的品質を実現することが示された。
関連論文リスト
- Oracle Noise: Faster Semantic Spherical Alignment for Interpretable Latent Optimization [5.814544128372275]
Oracle Noiseは、ハイパースフィアに限られるセマンティック駆動の最適化としてノイズを緩和するゼロショットフレームワークである。
ブラックボックスモデルなしでセマンティックアライメントと優れた美学を著しく加速する。
人間の好みの指標(HPSv2、ImageReward)、セマンティックアライメント(CLIP Score)、サンプルの多様性など、いずれも厳格な2秒の最適化予算内で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-04-26T05:32:26Z) - Ride the Wave: Precision-Allocated Sparse Attention for Smooth Video Generation [9.132288507881592]
ビデオ拡散変換器は高忠実度ビデオ生成に革命をもたらしたが、自己注意の膨大な計算負担に悩まされている。
PASA(Precision-Allocated Sparse Attention)は,高効率かつ時間的にスムーズなビデオ生成を目的としたトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2026-04-14T02:51:52Z) - ScrollScape: Unlocking 32K Image Generation With Video Diffusion Priors [48.033666517340464]
ScrollScapeは、EAR画像合成を連続的なビデオ生成プロセスに変換する新しいフレームワークである。
また,ScrollScapeは,高度に局所化されたアーティファクトを除去することにより,既存の画像拡散ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2026-03-25T13:03:02Z) - SCEESR: Semantic-Control Edge Enhancement for Diffusion-Based Super-Resolution [0.8122270502556375]
現実世界の超解像は複雑な劣化と固有の再構成の曖昧さに対処しなければならない。
一段階拡散モデルは速度を提供するが、蒸留品による構造的不正確さをしばしば生み出す。
セマンティックエッジガイダンスのための制御ネット機構を用いて,一段階拡散モデルを強化する新しいSRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-22T06:06:01Z) - Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - Optimal Stepsize for Diffusion Sampling [14.849487881523041]
拡散モデルは、優れた生成品質を達成するが、最適以下のステップの離散化による計算集約サンプリングに苦しむ。
本稿では,参照軌道から知識を抽出し,理論的に最適なスケジュールを抽出する動的プログラミングフレームワークであるOptimal Stepsize Distillationを提案する。
実験では、GenEvalで99.4%のパフォーマンスを維持しながら、10倍の高速化されたテキスト-画像生成を示す。
論文 参考訳(メタデータ) (2025-03-27T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。