論文の概要: Multilevel Diffusion: Infinite Dimensional Score-Based Diffusion Models
for Image Generation
- arxiv url: http://arxiv.org/abs/2303.04772v1
- Date: Wed, 8 Mar 2023 18:10:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 12:51:19.442374
- Title: Multilevel Diffusion: Infinite Dimensional Score-Based Diffusion Models
for Image Generation
- Title(参考訳): 多値拡散:画像生成のための無限次元スコアベース拡散モデル
- Authors: Paul Hagemann, Lars Ruthotto, Gabriele Steidl, Nicole Tianjiao Yang
- Abstract要約: スコアベース拡散モデル (SBDM) は画像生成のための最先端のアプローチとして登場した。
本稿では, 無限次元のSBDM, すなわち, 矩形領域でサポートされている関数としてトレーニングデータをモデル化する。
このフレームワークでマルチレベルトレーニングが実現可能であることを示す。
- 参考スコア(独自算出の注目度): 3.2116198597240846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Score-based diffusion models (SBDM) have recently emerged as state-of-the-art
approaches for image generation. Existing SBDMs are typically formulated in a
finite-dimensional setting, where images are considered as tensors of a finite
size. This papers develops SBDMs in the infinite-dimensional setting, that is,
we model the training data as functions supported on a rectangular domain.
Besides the quest for generating images at ever higher resolution our primary
motivation is to create a well-posed infinite-dimensional learning problem so
that we can discretize it consistently on multiple resolution levels. We
thereby hope to obtain diffusion models that generalize across different
resolution levels and improve the efficiency of the training process. We
demonstrate how to overcome two shortcomings of current SBDM approaches in the
infinite-dimensional setting. First, we modify the forward process to ensure
that the latent distribution is well-defined in the infinite-dimensional
setting using the notion of trace class operators. Second, we illustrate that
approximating the score function with an operator network, in our case Fourier
neural operators (FNOs), is beneficial for multilevel training. After deriving
the forward and reverse process in the infinite-dimensional setting, we show
their well-posedness, derive adequate discretizations, and investigate the role
of the latent distributions. We provide first promising numerical results on
two datasets, MNIST and material structures. In particular, we show that
multilevel training is feasible within this framework.
- Abstract(参考訳): スコアベース拡散モデル(SBDM)は画像生成のための最先端のアプローチとして最近登場した。
既存のSBDMは通常有限次元の設定で定式化され、画像は有限サイズのテンソルと見なされる。
本稿では, 無限次元のSBDM, すなわち, 矩形領域でサポートされている関数としてトレーニングデータをモデル化する。
より高解像度で画像を生成することの探求に加えて、我々の主な動機は、よく考えられた無限次元の学習問題を作成し、複数の解像度レベルで一貫した識別を可能にすることである。
これにより,異なる解像度レベルにまたがる拡散モデルが得られ,訓練プロセスの効率が向上することを期待している。
無限次元設定におけるsbdmアプローチの2つの欠点を克服する方法を示す。
まず, 潜在分布が無限次元設定においてトレースクラス作用素の概念を用いて well-defined であることを保証するために, フォワードプロセスを修正した。
第2に,演算子ネットワークを用いたスコア関数の近似化は,fno(fourier neural operator)が多レベルトレーニングに有用であることを示す。
無限次元設定における前方および逆過程を導出した後、それらの適切性を示し、適切な離散化を導出し、潜在分布の役割について検討する。
2つのデータセット、MNISTと材料構造について、まず有望な数値結果を提供する。
特に、このフレームワークでマルチレベルトレーニングが実現可能であることを示す。
関連論文リスト
- Fixed Point Diffusion Models [13.035518953879539]
FPDM(Fixed Point Diffusion Model)は、FPDM(Fixed Point Diffusion Model)の概念を拡散に基づく生成モデルに組み込んだ画像生成手法である。
提案手法では,拡散モデルのデノナイズネットワークに暗黙の固定点解法層を埋め込み,拡散過程を密接な関係のある固定点問題列に変換する。
我々は、ImageNet、FFHQ、CelebA-HQ、LSUN-Churchの最先端モデルを用いて実験を行い、性能と効率を大幅に改善した。
論文 参考訳(メタデータ) (2024-01-16T18:55:54Z) - Exploiting Diffusion Prior for Generalizable Pixel-Level Semantic
Prediction [93.35493328885372]
我々は、画素レベルのセマンティック予測タスクの先行として、事前訓練されたT2Iモデルを導入する。
我々は一連の実験を通して拡散過程を再構成し、入力されたRGB画像と出力予測分布との決定論的マッピングを確立する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - SDDM: Score-Decomposed Diffusion Models on Manifolds for Unpaired
Image-to-Image Translation [96.11061713135385]
本研究は,画像生成時の絡み合った分布を明示的に最適化する,新しいスコア分解拡散モデルを提案する。
我々は、スコア関数の精製部分とエネルギー誘導を等しくし、多様体上の多目的最適化を可能にする。
SDDMは既存のSBDMベースの手法よりも優れており、I2Iベンチマークでは拡散ステップがはるかに少ない。
論文 参考訳(メタデータ) (2023-08-04T06:21:57Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。