論文の概要: $\infty$-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions
- arxiv url: http://arxiv.org/abs/2407.14709v1
- Date: Sat, 20 Jul 2024 00:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 21:14:02.714570
- Title: $\infty$-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions
- Title(参考訳): $\infty$-Brush:無限次元拡散モデルによる制御可能な大画像合成
- Authors: Minh-Quan Le, Alexandros Graikos, Srikar Yellapragada, Rajarsi Gupta, Joel Saltz, Dimitris Samaras,
- Abstract要約: 無限次元における新しい条件拡散モデル、制御可能な大画像合成のための$infty$-Brushを導入する。
我々の知る限り、$infty$-Brushは関数空間における最初の条件拡散モデルであり、最大4096times4096$ピクセルの任意の解像度で画像を制御できる。
- 参考スコア(独自算出の注目度): 58.42011190989414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing high-resolution images from intricate, domain-specific information remains a significant challenge in generative modeling, particularly for applications in large-image domains such as digital histopathology and remote sensing. Existing methods face critical limitations: conditional diffusion models in pixel or latent space cannot exceed the resolution on which they were trained without losing fidelity, and computational demands increase significantly for larger image sizes. Patch-based methods offer computational efficiency but fail to capture long-range spatial relationships due to their overreliance on local information. In this paper, we introduce a novel conditional diffusion model in infinite dimensions, $\infty$-Brush for controllable large image synthesis. We propose a cross-attention neural operator to enable conditioning in function space. Our model overcomes the constraints of traditional finite-dimensional diffusion models and patch-based methods, offering scalability and superior capability in preserving global image structures while maintaining fine details. To our best knowledge, $\infty$-Brush is the first conditional diffusion model in function space, that can controllably synthesize images at arbitrary resolutions of up to $4096\times4096$ pixels. The code is available at https://github.com/cvlab-stonybrook/infinity-brush.
- Abstract(参考訳): 複雑なドメイン固有情報からの高解像度画像の合成は、特にデジタル病理学やリモートセンシングのような大規模領域での応用において、生成モデリングにおいて重要な課題である。
既存の手法では、画素空間や潜時空間における条件拡散モデルは、忠実さを損なわずに訓練された解像度を超えることはできず、より大きな画像サイズに対して計算要求が大幅に増加する。
パッチベースの手法は、計算効率を提供するが、局所情報への過度な依存のため、長距離空間関係を捉えることができない。
本稿では,無限次元の新たな条件拡散モデルである$\infty$-Brushを導入する。
本稿では,関数空間の条件付けを可能にするクロスアテンション型ニューラル演算子を提案する。
我々のモデルは従来の有限次元拡散モデルとパッチベースの手法の制約を克服し、細部を維持しながらグローバルな画像構造を保存するためのスケーラビリティと優れた能力を提供する。
我々の知る限り、$\infty$-Brushは関数空間における最初の条件拡散モデルであり、最大4096\times4096$ピクセルの任意の解像度で画像を制御できる。
コードはhttps://github.com/cvlab-stonybrook/infinity-brush.comで公開されている。
関連論文リスト
- ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
論文 参考訳(メタデータ) (2024-11-25T22:39:22Z) - Scalable Diffusion Models with State Space Backbone [33.92910068664058]
拡散状態空間モデルは、時間、条件、ノイズの多いイメージパッチを含む全ての入力をトークンとして扱う。
我々はGflopsのフォワードパス複雑性によって測定されたDiSのスケーラビリティを解析する。
遅延空間におけるDiS-H/2モデルは、クラス条件のImageNetベンチマークにおける事前拡散モデルと同様のパフォーマンスレベルを達成する。
論文 参考訳(メタデータ) (2024-02-08T12:08:42Z) - Domain Transfer in Latent Space (DTLS) Wins on Image Super-Resolution --
a Non-Denoising Model [13.326634982790528]
本稿では,ガウス雑音から逃れる単純な手法を提案するが,画像超解像のための拡散モデルの基本構造を採用する。
実験結果から,本手法は最先端の大規模超解像モデルだけでなく,画像超解像に対する現在の拡散モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-11-04T09:57:50Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。