論文の概要: Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution
- arxiv url: http://arxiv.org/abs/2605.26032v1
- Date: Mon, 25 May 2026 17:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.529826
- Title: Everything at Every Scale: Scale-Invariant Diffusion with Continuous Super-Resolution
- Title(参考訳): あらゆるスケールで - 継続的超解法によるスケール不変拡散
- Authors: Zixin Jessie Chen, Zhuo Chen, Archer Wang, Jeff Gore, William T. Freeman, Congyue Deng, Marin Soljačić,
- Abstract要約: ノイズから画像を作成することは画像生成であり、粗い入力から細部を再構築することは超高解像度である。
我々は、単一の非条件フレームワーク内で生成と連続超解像を統一するモデルである$textbfSKILD$を紹介した。
実証的には、SKILDはFID$2.65ドル、Inception Score$9.63ドルに達する。
- 参考スコア(独自算出の注目度): 27.232771005158146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating images from noise is image generation; reconstructing fine details from coarse inputs is super-resolution. Despite their practical differences, both can be understood as reversing information loss across scales. We introduce $\textbf{SKILD}$, a $\textbf{S}$cale-invariant $\textbf{K}$-Space $\textbf{I}$mage $\textbf{L}$earning $\textbf{D}$iffusion model that unifies generation and continuous super-resolution within a single unconditional framework. Both natural images and critical physical systems exhibit scale invariance, and we leverage it to design a forward process that attenuates image content from fine to coarse scales while injecting spectrum-matched Gaussian noise, making scale an explicit coordinate of the diffusion dynamics. The same trained reverse process performs generation and continuous super-resolution by varying only the starting timestep: $\textit{no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor}$. Empirically, SKILD reaches FID $2.65$ and Inception Score $9.63$ on unconditional CIFAR-10, performs $2\times$--$8\times$ super-resolution on ImageNet from a single unconditional checkpoint while outperforming conditional models across perceptual metrics, and reconstructs critical Ising models whose connected four-point correlations closely track the ground truth.
- Abstract(参考訳): ノイズから画像を作成することは画像生成であり、粗い入力から細部を再構築することは超高解像度である。
両者の現実的な違いにもかかわらず、両者はスケールをまたいで情報損失を反転させるものとして理解することができる。
$\textbf{SKILD}$, a $\textbf{S}$cale-invariant $\textbf{K}$-Space $\textbf{I}$mage $\textbf{L}$earning $\textbf{D}$iffusion model。
自然画像と臨界物理系の両方がスケール不変性を示しており、スペクトルマッチングされたガウス雑音を注入しながら、微細なスケールから粗いスケールへの画像内容の減衰を抑える前処理を設計し、拡散力学の明示的な座標とする。
同じトレーニングされたリバースプロセスは、開始時間だけを変えることで、生成と連続した超解像を実行する: $\textit{no task-specific architecture, no conditioning branch, no classifier-free guidance, no retraining per scale factor}$。
実証的に、SKILD は FID $2.65$ に達し、Inception Score 9.63$ は無条件の CIFAR-10 上で$2\times$--$8\times$ の超解像を行う。
関連論文リスト
- UniF$^2$ace: A Unified Fine-grained Face Understanding and Generation Model [62.66515621965686]
本稿では,2次元離散拡散(D3Diff)損失を伴う新しい理論枠組みを導入し,離散的なスコアマッチング拡散を伴うマスク付き生成モデルを統一する。
このD3Diffは、テキスト入力に沿った高忠実度顔の詳細を合成するモデルの能力を大幅に向上させる。
提案するUniF$2$aceD-1Mは,130Kの微細な画像キャプチャ対と100Mの視覚的質問応答対からなる大規模データセットである。
論文 参考訳(メタデータ) (2025-03-11T07:34:59Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)において顕著な効果を示した
本稿では,Self-Ensembling Gaussian Splatting(SE-GS)を紹介する。
我々は,トレーニング中に不確実性を認識した摂動戦略を導入することで,自己理解を実現する。
LLFF, Mip-NeRF360, DTU, MVImgNetデータセットによる実験結果から, 本手法がNVSの品質を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling [13.275724439963188]
FreCaSはサンプリングプロセスをカスケードステージに分解し、徐々に分解能が向上する。
FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-24T03:56:44Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Efficient Scale-Invariant Generator with Column-Row Entangled Pixel
Synthesis [3.222802562733787]
本研究では,空間的畳み込みや粗大な設計を使わずに,効率的かつスケール平等な新しい生成モデルを提案する。
FFHQ、LSUN-Church、MetFaces、Flickr-Sceneryなど、さまざまなデータセットの実験では、CREPSのスケール一貫性とエイリアスのない画像を合成する能力が確認されている。
論文 参考訳(メタデータ) (2023-03-24T17:12:38Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。