論文の概要: ZoomLDM: Latent Diffusion Model for multi-scale image generation
- arxiv url: http://arxiv.org/abs/2411.16969v1
- Date: Mon, 25 Nov 2024 22:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:23.377013
- Title: ZoomLDM: Latent Diffusion Model for multi-scale image generation
- Title(参考訳): ZoomLDM:マルチスケール画像生成のための潜時拡散モデル
- Authors: Srikar Yellapragada, Alexandros Graikos, Kostas Triaridis, Prateek Prasanna, Rajarsi R. Gupta, Joel Saltz, Dimitris Samaras,
- Abstract要約: 複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
- 参考スコア(独自算出の注目度): 57.639937071834986
- License:
- Abstract: Diffusion models have revolutionized image generation, yet several challenges restrict their application to large-image domains, such as digital pathology and satellite imagery. Given that it is infeasible to directly train a model on 'whole' images from domains with potential gigapixel sizes, diffusion-based generative methods have focused on synthesizing small, fixed-size patches extracted from these images. However, generating small patches has limited applicability since patch-based models fail to capture the global structures and wider context of large images, which can be crucial for synthesizing (semantically) accurate samples. In this paper, to overcome this limitation, we present ZoomLDM, a diffusion model tailored for generating images across multiple scales. Central to our approach is a novel magnification-aware conditioning mechanism that utilizes self-supervised learning (SSL) embeddings and allows the diffusion model to synthesize images at different 'zoom' levels, i.e., fixed-size patches extracted from large images at varying scales. ZoomLDM achieves state-of-the-art image generation quality across all scales, excelling particularly in the data-scarce setting of generating thumbnails of entire large images. The multi-scale nature of ZoomLDM unlocks additional capabilities in large image generation, enabling computationally tractable and globally coherent image synthesis up to $4096 \times 4096$ pixels and $4\times$ super-resolution. Additionally, multi-scale features extracted from ZoomLDM are highly effective in multiple instance learning experiments. We provide high-resolution examples of the generated images on our website https://histodiffusion.github.io/docs/publications/zoomldm/.
- Abstract(参考訳): 拡散モデルは画像生成に革命をもたらしたが、デジタル病理学や衛星画像などの大画像領域への適用を制限するいくつかの課題がある。
潜在的ギガピクセルサイズを持つ領域から「全体」画像のモデルを直接訓練することは不可能であるため、拡散型生成法はこれらの画像から抽出した小さい、固定サイズのパッチを合成することに重点を置いている。
しかし、パッチベースのモデルではグローバルな構造や大きな画像のより広いコンテキストをキャプチャできないため、小さなパッチの生成は適用性に制限がある。
本稿では,この制限を克服するために,複数のスケールにまたがる画像生成に適した拡散モデルZoomLDMを提案する。
提案手法の中心となるのは,自己教師付き学習(SSL)埋め込みを利用した新たな拡張型条件付け機構であり,拡散モデルにより様々な「動物」レベルの画像,すなわち大規模画像から抽出した固定サイズパッチを様々なスケールで合成することができる。
ZoomLDMは、あらゆるスケールにわたる最先端の画像生成品質を実現し、特に大きな画像全体のサムネイルを生成するデータスカース設定において優れている。
ZoomLDMのマルチスケールな性質は、大規模画像生成のさらなる能力を解き、計算可能でグローバルなコヒーレントな画像合成を可能にする。
さらに、ZoomLDMから抽出したマルチスケール機能は、複数のインスタンス学習実験において非常に効果的である。
生成された画像の高精細な例は、Webサイトhttps://histodiffusion.github.io/docs/publications/zoomldm/で公開しています。
関連論文リスト
- Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Boosting Few-Shot Detection with Large Language Models and Layout-to-Image Synthesis [1.1633929083694388]
本稿では,最先端な生成的拡張アプローチを超越した,少数ショット検出のためのフレームワークを提案する。
我々は,新しいレイアウト対応CLIPスコアをサンプルランキングに導入し,生成したレイアウトと画像の密結合を可能にする。
アプローチでは,COCO5-,10-,30ショット設定でYOLOX-Sベースラインを140%以上,50%,35%のmAPで強化する。
論文 参考訳(メタデータ) (2024-10-09T12:57:45Z) - $\infty$-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions [58.42011190989414]
無限次元における新しい条件拡散モデル、制御可能な大画像合成のための$infty$-Brushを導入する。
我々の知る限り、$infty$-Brushは関数空間における最初の条件拡散モデルであり、最大4096times4096$ピクセルの任意の解像度で画像を制御できる。
論文 参考訳(メタデータ) (2024-07-20T00:04:49Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。