論文の概要: Real-World Image Variation by Aligning Diffusion Inversion Chain
- arxiv url: http://arxiv.org/abs/2305.18729v3
- Date: Tue, 7 Nov 2023 03:34:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:31:14.372599
- Title: Real-World Image Variation by Aligning Diffusion Inversion Chain
- Title(参考訳): 拡散反転チェーンの整列化による実世界画像の変動
- Authors: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
- Abstract要約: 生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
- 参考スコア(独自算出の注目度): 53.772004619296794
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent diffusion model advancements have enabled high-fidelity images to be
generated using text prompts. However, a domain gap exists between generated
images and real-world images, which poses a challenge in generating
high-quality variations of real-world images. Our investigation uncovers that
this domain gap originates from a latents' distribution gap in different
diffusion processes. To address this issue, we propose a novel inference
pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes
diffusion models to generate image variations from a single image exemplar. Our
pipeline enhances the generation quality of image variations by aligning the
image generation process to the source image's inversion chain. Specifically,
we demonstrate that step-wise latent distribution alignment is essential for
generating high-quality variations. To attain this, we design a cross-image
self-attention injection for feature interaction and a step-wise distribution
normalization to align the latent features. Incorporating these alignment
processes into a diffusion model allows RIVAL to generate high-quality image
variations without further parameter optimization. Our experimental results
demonstrate that our proposed approach outperforms existing methods concerning
semantic similarity and perceptual quality. This generalized inference pipeline
can be easily applied to other diffusion-based generation tasks, such as
image-conditioned text-to-image generation and stylization.
- Abstract(参考訳): 近年の拡散モデルの発展により,テキストプロンプトによる高忠実度画像の生成が可能になった。
しかし、生成された画像と実世界の画像の間にドメインギャップが存在し、実世界の画像の高品質なバリエーションを生成することが困難となる。
この領域のギャップは、異なる拡散過程における潜伏者の分布ギャップに由来することが判明した。
そこで本研究では,拡散モデルを用いて1つの画像から画像変動を生成する,実世界画像変動アライメント(rival)と呼ばれる新しい推定パイプラインを提案する。
当社のパイプラインでは,画像生成プロセスをソース画像の反転チェーンに合わせることにより,画像変動の生成品質を向上させる。
具体的には, ステップワイズ潜在分布アライメントが高品質な変動生成に不可欠であることを実証する。
これを実現するために、機能相互作用のためのクロスイメージ自己注意注入と、遅延特徴を整合させるためにステップワイズ分布正規化を設計する。
これらのアライメントプロセスを拡散モデルに組み込むことで、ライバルはさらなるパラメータ最適化なしに高品質な画像変動を生成することができる。
提案手法は意味的類似性や知覚的品質に関する既存手法よりも優れていることを示す。
この一般化推論パイプラインは、画像条件付きテキスト・ツー・イメージ生成やスタイリングなど、他の拡散ベースの生成タスクにも容易に適用できる。
関連論文リスト
- Diffusing Differentiable Representations [60.72992910766525]
本稿では,事前学習した拡散モデルを用いて,微分可能な表現(拡散)をサンプリングする,新しい学習自由な手法を提案する。
差分によって引き起こされるサンプルに対する暗黙の制約を特定し、この制約に対処することで、生成されたオブジェクトの一貫性と詳細が大幅に改善されることを示す。
論文 参考訳(メタデータ) (2024-12-09T20:42:58Z) - Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。
具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。
提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文 参考訳(メタデータ) (2024-08-28T09:22:32Z) - IMPUS: Image Morphing with Perceptually-Uniform Sampling Using Diffusion Models [24.382275473592046]
知覚一様サンプリング(IMPUS)を用いた拡散型画像形成手法を提案する。
IMPUSは画像対を与えられた滑らかで直接的で現実的な適応を生成する。
論文 参考訳(メタデータ) (2023-11-12T10:03:32Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。