論文の概要: Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation
- arxiv url: http://arxiv.org/abs/2306.13720v9
- Date: Fri, 29 Nov 2024 11:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:16:37.116212
- Title: Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation
- Title(参考訳): ゼロ・ゼロ・ゼロ・ゼロ・ゼロ・ゼロ・ゼロ・ゼロ・ゼロ・ゼロ・ゼロ:解析的画像減衰を伴う拡散モデル
- Authors: Yuhang Huang, Zheng Qin, Xinwang Liu, Kai Xu,
- Abstract要約: 高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。
本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。
我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
- 参考スコア(独自算出の注目度): 53.04220377034574
- License:
- Abstract: Recent studies have demonstrated that the forward diffusion process is crucial for the effectiveness of diffusion models in terms of generative quality and sampling efficiency. We propose incorporating an analytical image attenuation process into the forward diffusion process for high-quality (un)conditioned image generation with significantly fewer denoising steps compared to the vanilla diffusion model requiring thousands of steps. In a nutshell, our method represents the forward image-to-noise mapping as simultaneous \textit{image-to-zero} mapping and \textit{zero-to-noise} mapping. Under this framework, we mathematically derive 1) the training objectives and 2) for the reverse time the sampling formula based on an analytical attenuation function which models image to zero mapping. The former enables our method to learn noise and image components simultaneously which simplifies learning. Importantly, because of the latter's analyticity in the \textit{zero-to-image} sampling function, we can avoid the ordinary differential equation-based accelerators and instead naturally perform sampling with an arbitrary step size. We have conducted extensive experiments on unconditioned image generation, \textit{e.g.}, CIFAR-10 and CelebA-HQ-256, and image-conditioned downstream tasks such as super-resolution, saliency detection, edge detection, and image inpainting. The proposed diffusion models achieve competitive generative quality with much fewer denoising steps compared to the state of the art, thus greatly accelerating the generation speed. In particular, to generate images of comparable quality, our models require only one-twentieth of the denoising steps compared to the baseline denoising diffusion probabilistic models. Moreover, we achieve state-of-the-art performances on the image-conditioned tasks using only no more than 10 steps.
- Abstract(参考訳): 近年の研究では, 進行拡散過程は, 生成的品質とサンプリング効率の観点から拡散モデルの有効性に欠かせないことが示されている。
本研究では,数千段のステップを必要とするバニラ拡散モデルと比較して,高画質(未条件)の画像生成のための前方拡散過程に解析的画像減衰プロセスを導入することを提案する。
簡単に言えば,本手法は前向き画像-雑音マッピングを,同時に \textit{image-to-zero} マッピングと \textit{zero-to-noise} マッピングとして表現する。
この枠組みの下では、数学的に導出する
1) 訓練の目的と
2) 逆時間の場合, 画像のゼロマッピングをモデル化した解析減衰関数に基づくサンプリング式が得られた。
前者はノイズと画像成分を同時に学習し,学習を簡略化する手法である。
重要なことは、後者のサンプリング関数であるtextit{zero-to-image} の解析性のため、通常の微分方程式ベースの加速器を避け、任意のステップサイズで自然にサンプリングを行うことができる。
我々は,未条件画像生成,<textit{e g }, CIFAR-10, CelebA-HQ-256, および超解像, 塩分検出, エッジ検出, 画像インペインティングなどの画像条件下下流タスクについて広範な実験を行った。
提案した拡散モデルでは, 最先端技術に比べてデノゲーションステップがはるかに少なく, 競合生成品質が向上し, 生成速度が大幅に向上する。
特に、同等の画質の画像を生成するためには、我々のモデルは拡散確率モデルのベースラインよりもデノナイジングステップの2分の1しか必要としない。
さらに,10段階以内のステップで画像条件付きタスクの最先端性能を実現する。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Identifying and Solving Conditional Image Leakage in Image-to-Video Diffusion Model [31.70050311326183]
拡散モデルは、予想より少ない動きでビデオを生成する傾向がある。
推論とトレーニングの両方の観点からこの問題に対処します。
提案手法は,より低い誤差で高い動作スコアを生成することにより,ベースラインを上回ります。
論文 参考訳(メタデータ) (2024-06-22T04:56:16Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - Generalized Consistency Trajectory Models for Image Manipulation [59.576781858809355]
拡散モデル(DM)は、画像編集や復元などの応用と同様に、無条件生成において優れている。
本研究の目的は、一般化されたCTM(GCTM)を提案することによって、整合性軌道モデル(CTM)の完全なポテンシャルを解放することである。
本稿では,GCTMの設計空間について論じ,画像から画像への変換,復元,編集など,様々な画像操作タスクにおいて有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T07:24:54Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - AI pipeline for accurate retinal layer segmentation using OCT 3D images [3.938455123895825]
いくつかの古典的およびAIベースのアルゴリズムが組み合わせてテストされ、動物イメージングシステムからのデータとの互換性を確認している。
単純で実装可能な解析方程式は、平均ピクセル値の1%インクリメントで輝度操作に有効であることが示されている。
厚み推定処理は、手動の注釈付き標準データと比較して6%の誤差を有する。
論文 参考訳(メタデータ) (2023-02-15T17:46:32Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Score-based diffusion models for accelerated MRI [35.3148116010546]
本研究では,画像中の逆問題を容易に解けるような条件分布からデータをサンプリングする方法を提案する。
我々のモデルは、訓練のためにのみ等級画像を必要とするが、複雑な値のデータを再構成することができ、さらに並列画像まで拡張できる。
論文 参考訳(メタデータ) (2021-10-08T08:42:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。