論文の概要: Simple diffusion: End-to-end diffusion for high resolution images
- arxiv url: http://arxiv.org/abs/2301.11093v2
- Date: Tue, 12 Dec 2023 14:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 20:54:06.885049
- Title: Simple diffusion: End-to-end diffusion for high resolution images
- Title(参考訳): 簡易拡散:高分解能画像のためのエンドツーエンド拡散
- Authors: Emiel Hoogeboom, Jonathan Heek, Tim Salimans
- Abstract要約: 本稿では,高分解能画像の拡散を極力シンプルに保ちながら,デノナイズ拡散を改善することを目的とする。
4つの主な発見は,1)高分解能画像に対してノイズスケジュールを調整すること,2)アーキテクチャの特定の部分のみをスケールすること,3)アーキテクチャの特定の場所でドロップアウトを追加すること,4)高分解能特徴マップを避けるためのダウンサンプリングは効果的な戦略である。
- 参考スコア(独自算出の注目度): 27.47227724865238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, applying diffusion models in pixel space of high resolution images
is difficult. Instead, existing approaches focus on diffusion in lower
dimensional spaces (latent diffusion), or have multiple super-resolution levels
of generation referred to as cascades. The downside is that these approaches
add additional complexity to the diffusion framework.
This paper aims to improve denoising diffusion for high resolution images
while keeping the model as simple as possible. The paper is centered around the
research question: How can one train a standard denoising diffusion models on
high resolution images, and still obtain performance comparable to these
alternate approaches?
The four main findings are: 1) the noise schedule should be adjusted for high
resolution images, 2) It is sufficient to scale only a particular part of the
architecture, 3) dropout should be added at specific locations in the
architecture, and 4) downsampling is an effective strategy to avoid high
resolution feature maps. Combining these simple yet effective techniques, we
achieve state-of-the-art on image generation among diffusion models without
sampling modifiers on ImageNet.
- Abstract(参考訳): 現在,高解像度画像の画素空間における拡散モデルの適用は困難である。
その代わり、既存のアプローチは低次元空間における拡散(相対拡散)にフォーカスするか、カスケードと呼ばれる複数の超解像レベルを持つ。
欠点は、これらのアプローチが拡散フレームワークにさらに複雑さをもたらすことです。
本稿では,高分解能画像のデノナイズ拡散を改善することを目的とした。
この論文は、高分解能画像上で標準的な拡散モデルを訓練し、それでもこれらの代替手法に匹敵する性能を得ることができるか?
4つの主な発見は
1)高解像度画像のノイズスケジュールを調整すべきである。
2) アーキテクチャの特定の部分のみをスケールするには十分です。
3) アーキテクチャ内の特定の場所にドロップアウトを追加する必要がある。
4) ダウンサンプリングは高解像度の特徴マップを避けるための効果的な戦略である。
これらの単純かつ効果的な手法を組み合わせることで、ImageNet上のモデレータをサンプリングすることなく拡散モデル間の画像生成の最先端を実現する。
関連論文リスト
- Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion [34.70370851239368]
画素空間モデルは、実際、品質と効率の両面において、潜在的なアプローチと非常に競合する可能性があることを示す。
エンド・ツー・エンドのピクセル空間拡散モデルを高分解能に拡張するための簡単なレシピを提案する。
論文 参考訳(メタデータ) (2024-10-25T06:20:06Z) - DiffuseHigh: Training-free Progressive High-Resolution Image Synthesis through Structure Guidance [11.44012694656102]
テキストから画像への拡散モデルのような大規模生成モデルは、様々な領域で広く注目を集めている。
既存の大規模拡散モデルでは、最大1K解像度の画像を生成できる。
本稿では,高分解能画像の生成を導くために,生成した低分解能画像を完全に活用する新しいプログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T16:10:31Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - Prompt-tuning latent diffusion models for inverse problems [72.13952857287794]
本稿では,テキストから画像への遅延拡散モデルを用いた逆問題の画像化手法を提案する。
P2Lと呼ばれる本手法は,超解像,デブロアリング,インパインティングなどの様々なタスクにおいて,画像拡散モデルと潜時拡散モデルに基づく逆問題解法の両方に優れる。
論文 参考訳(メタデータ) (2023-10-02T11:31:48Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - LLDiffusion: Learning Degradation Representations in Diffusion Models
for Low-Light Image Enhancement [118.83316133601319]
現在の低照度画像強調(LLIE)の深層学習法は、通常、ペア化されたデータから学んだピクセルワイドマッピングに依存している。
本稿では,拡散モデルを用いたLLIEの劣化認識学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T07:22:51Z) - Real-World Denoising via Diffusion Model [14.722529440511446]
実世界のイメージデノイングは、自然の環境で撮影されたノイズの多い画像からクリーンなイメージを復元することを目的としている。
拡散モデルは画像生成の分野で非常に有望な結果を得た。
本稿では,実世界の画像のデノナイズに使用可能な,新しい一般デノナイズ拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-05-08T04:48:03Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - High-Resolution Image Editing via Multi-Stage Blended Diffusion [3.834509400202395]
本稿では,事前学習した低分解能拡散モデルを用いてメガピクセル範囲の画像を編集する手法を提案する。
我々はまず,Blended Diffusionを用いて低解像度で画像を編集し,その後,高解像度モデルとBlended Diffusionを用いて複数のステージでアップスケールする。
論文 参考訳(メタデータ) (2022-10-24T06:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。