論文の概要: FrescoDiffusion: 4K Image-to-Video with Prior-Regularized Tiled Diffusion
- arxiv url: http://arxiv.org/abs/2603.17555v1
- Date: Wed, 18 Mar 2026 10:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.630756
- Title: FrescoDiffusion: 4K Image-to-Video with Prior-Regularized Tiled Diffusion
- Title(参考訳): FrescoDiffusion: 4K Image-to-Video with pre-regularized Tiled Diffusion
- Authors: Hugo Caselles-Dupré, Mathis Koroglu, Guillaume Jeanneret, Arnaud Dapogny, Matthieu Cord,
- Abstract要約: 本稿ではFrescoDiffusionについて紹介する。FrescoDiffusionは1つの画像からコヒーレントな大フォーマットI2V生成のためのトレーニング不要な手法である。
4K 生成では,タイルごとの雑音予測を計算し,この基準を拡散時間毎にフューズする。
VBench-I2Vデータセットと提案したフレスコI2Vデータセットの実験により,タイル付きベースラインに対するグローバルな一貫性と忠実度が改善された。
- 参考スコア(独自算出の注目度): 46.49480145234397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based image-to-video (I2V) models are increasingly effective, yet they struggle to scale to ultra-high-resolution inputs (e.g., 4K). Generating videos at the model's native resolution often loses fine-grained structure, whereas high-resolution tiled denoising preserves local detail but breaks global layout consistency. This failure mode is particularly severe in the fresco animation setting: monumental artworks containing many distinct characters, objects, and semantically different sub-scenes that must remain spatially coherent over time. We introduce FrescoDiffusion, a training-free method for coherent large-format I2V generation from a single complex image. The key idea is to augment tiled denoising with a precomputed latent prior: we first generate a low-resolution video at the underlying model resolution and upsample its latent trajectory to obtain a global reference that captures long-range temporal and spatial structure. For 4K generation, we compute per-tile noise predictions and fuse them with this reference at every diffusion timestep by minimizing a single weighted least-squares objective in model-output space. The objective combines a standard tile-merging criterion with our regularization term, yielding a closed-form fusion update that strengthens global coherence while retaining fine detail. We additionally provide a spatial regularization variable that enables region-level control over where motion is allowed. Experiments on the VBench-I2V dataset and our proposed fresco I2V dataset show improved global consistency and fidelity over tiled baselines, while being computationally efficient. Our regularization enables explicit controllability of the trade-off between creativity and consistency.
- Abstract(参考訳): 拡散に基づくイメージ・トゥ・ビデオ(I2V)モデルはますます効果的になるが、超高解像度の入力(例:4K)にスケールするのに苦労する。
モデルのネイティブ解像度でビデオを生成すると、微細な構造が失われることが多いが、高解像度のタイル付きデノイングは局所的な詳細を保存するが、グローバルなレイアウトの整合性を損なう。
この失敗モードはフレスコアニメーションでは特に深刻で、多くの異なるキャラクター、オブジェクト、そして時間とともに空間的に一貫性を保たなければならない意味的に異なるサブシーンを含む記念碑的なアートワークである。
本稿では,FrescoDiffusionについて紹介する。FrescoDiffusionは1つの複素画像からコヒーレントな大フォーマットI2V生成を行うためのトレーニング不要な手法である。
まず、下層のモデル解像度で低解像度のビデオを生成し、その潜在軌道を増幅して、長距離の時間的・空間的構造を捉えた大域的な基準を得る。
4K 生成では,1 つの重み付き最小2乗の目標をモデル出力空間で最小化することにより,この基準を拡散時間毎に求める。
この目的は、標準のタイルマージ基準と我々の正規化項を組み合わせることで、細部を保ちながらグローバルコヒーレンスを強化するクローズドフォームの融合更新をもたらす。
また、動作が許される場所の領域レベルの制御を可能にする空間正規化変数も提供する。
VBench-I2Vデータセットと提案したフレスコI2Vデータセットによる実験は、計算効率を向上しつつ、タイル付きベースラインのグローバル一貫性と忠実度を改善した。
私たちの規則化によって、創造性と一貫性の間のトレードオフを明示的にコントロールすることが可能になります。
関連論文リスト
- RAYNOVA: Scale-Temporal Autoregressive World Modeling in Ray Space [51.441415833480505]
RAYNOVAは、二重因果自己回帰フレームワークを使用するシナリオを駆動するための多視点世界モデルである。
相対的なシャーカー線位置符号化に基づいて、ビュー、フレーム、スケールにまたがる等方的時間的表現を構築する。
論文 参考訳(メタデータ) (2026-02-24T08:41:40Z) - Towards Holistic Modeling for Video Frame Interpolation with Auto-regressive Diffusion Transformers [95.68243351895107]
我々はtextbfVideo textbfFrame textbfInterpolation (LDF-VFI) のための textbfLocal textbfDiffusion textbfForcing for textbfVideo textbfFrame textbfInterpolation (LDF-VFI) という包括的でビデオ中心のパラダイムを提案する。
我々のフレームワークは、ビデオシーケンス全体をモデル化し、長距離時間的コヒーレンスを確保する自動回帰拡散変換器上に構築されている。
LDF-VFIは、挑戦的なロングシーケンスベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-21T12:58:52Z) - Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution [42.859188375578604]
画像拡散モデルは、GAN法における過平滑化問題に対処するために、実世界のビデオ超解像に適応している。
これらのモデルは静的イメージでトレーニングされるため、時間的一貫性を維持するのに苦労する。
我々は,現実的な空間的詳細と強靭な時間的整合性を達成し,T2Vモデルを現実の超解像に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T12:36:21Z) - High-Resolution Frame Interpolation with Patch-based Cascaded Diffusion [44.52838839928787]
本稿では,高分解能フレーム・ツー・フレーム処理のためのパッチベースのカスケード画素拡散モデルを提案する。
HIFIは、大域的なコンテキストを必要とする高解像度画像と複雑な繰り返しテクスチャに優れる。
私たちは特に困難なケースに焦点を当てた新しいデータセットであるLaMoRを紹介します。
論文 参考訳(メタデータ) (2024-10-15T17:59:04Z) - Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking [52.393359791978035]
Motion2VecSetsは点雲列からの動的表面再構成のための4次元拡散モデルである。
グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。
時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。
論文 参考訳(メタデータ) (2024-01-12T15:05:08Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。