論文の概要: ScrollScape: Unlocking 32K Image Generation With Video Diffusion Priors
- arxiv url: http://arxiv.org/abs/2603.24270v1
- Date: Wed, 25 Mar 2026 13:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.299262
- Title: ScrollScape: Unlocking 32K Image Generation With Video Diffusion Priors
- Title(参考訳): ビデオ拡散プリミティブで32K画像生成をアンロックするScrrollScape
- Authors: Haodong Yu, Yabo Zhang, Donglin Di, Ruyi Zhang, Wangmeng Zuo,
- Abstract要約: ScrollScapeは、EAR画像合成を連続的なビデオ生成プロセスに変換する新しいフレームワークである。
本手法は, 極端に大規模に多様な領域にまたがる異常なグローバルコヒーレンスと視覚的忠実性を確保するために, 固有の構造的ボトルネックを克服する。
- 参考スコア(独自算出の注目度): 48.033666517340464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models excel at generating images with conventional dimensions, pushing them to synthesize ultra-high-resolution imagery at extreme aspect ratios (EAR) often triggers catastrophic structural failures, such as object repetition and spatial fragmentation.This limitation fundamentally stems from a lack of robust spatial priors, as static text-to-image models are primarily trained on image distributions with conventional dimensions.To overcome this bottleneck, we present ScrollScape, a novel framework that reformulates EAR image synthesis into a continuous video generation process through two core innovations.By mapping the spatial expansion of a massive canvas to the temporal evolution of video frames, ScrollScape leverages the inherent temporal consistency of video models as a powerful global constraint to ensure long-range structural integrity.Specifically, Scanning Positional Encoding (ScanPE) distributes global coordinates across frames to act as a flexible moving camera, while Scrolling Super-Resolution (ScrollSR) leverages video super-resolution priors to circumvent memory bottlenecks, efficiently scaling outputs to an unprecedented 32K resolution. Fine-tuned on a curated 3K multi-ratio image dataset, ScrollScape effectively aligns pre-trained video priors with the EAR generation task. Extensive evaluations demonstrate that it significantly outperforms existing image-diffusion baselines by eliminating severe localized artifacts. Consequently, our method overcomes inherent structural bottlenecks to ensure exceptional global coherence and visual fidelity across diverse domains at extreme scales.
- Abstract(参考訳): 拡散モデルは、従来の次元で画像を生成するのに優れているが、極端アスペクト比(EAR)で超高解像度画像の合成を推し進めると、しばしば破滅的な構造上の失敗を引き起こす。この制限は、静的テキスト・トゥ・イメージ・モデルは、通常次元で画像分布を主に訓練されているため、基本的には頑健な空間的事前の欠如から生じる。このボトルネックを克服するために、2つのコアイノベーションを通してEAR画像合成を連続ビデオ生成プロセスに再構成する新しいフレームワークであるScrrollScapeを提案する。
キュレートされた3Kマルチ比画像データセットに基づいて微調整されたScrrollScapeは、トレーニング済みのビデオの事前処理をEAR生成タスクと効果的に整合させる。
広範囲な評価は、高度に局所化されたアーティファクトを除去することで、既存の画像拡散ベースラインを著しく上回っていることを示している。
その結果,本手法は構造的ボトルネックを克服し,多様な領域にまたがる異常な大域的コヒーレンスと視覚的忠実度を極端に保証する。
関連論文リスト
- ViBe: Ultra-High-Resolution Video Synthesis Born from Pure Images [30.646542711556787]
トランスフォーマーに基づくビデオ拡散モデルは、空間的および時間的トークンに対する3次元の注意に依存している。
我々は,高解像度映像を合成するために,ネイティブスケールで事前学習したビデオ拡散変換器をアップグレードする純粋な画像適応フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T15:27:22Z) - FrescoDiffusion: 4K Image-to-Video with Prior-Regularized Tiled Diffusion [46.49480145234397]
本稿ではFrescoDiffusionについて紹介する。FrescoDiffusionは1つの画像からコヒーレントな大フォーマットI2V生成のためのトレーニング不要な手法である。
4K 生成では,タイルごとの雑音予測を計算し,この基準を拡散時間毎にフューズする。
VBench-I2Vデータセットと提案したフレスコI2Vデータセットの実験により,タイル付きベースラインに対するグローバルな一貫性と忠実度が改善された。
論文 参考訳(メタデータ) (2026-03-18T10:02:37Z) - DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation [72.89376712495464]
DAGEは、グローバルコヒーレンスを細部から切り離すデュアルストリームトランスフォーマーである。
低解像度ストリームは、フレーム/言語的注意を交互に交互に付加したアグレッシブなダウンサンプリングフレームで動作し、ビュー一貫性表現を構築する。
高解像度のストリームは、フレーム毎に元のイメージを処理し、シャープな境界と小さな構造を保存する。
この設計は、解像度とクリップ長を独立にスケールし、2Kまでの入力をサポートし、実用的な推論コストを維持する。
論文 参考訳(メタデータ) (2026-03-04T05:29:29Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment [54.66217340264935]
VideoLifterは、ローカルからグローバルへの戦略を断片的に活用する、新しいビデオから3Dパイプラインである。
再建プロセスを大幅に加速し、訓練時間を82%以上削減し、現在のSOTA法よりも視覚的品質を向上した。
論文 参考訳(メタデータ) (2025-01-03T18:52:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。