Fugu-MT 論文翻訳(概要): Real-World Image Variation by Aligning Diffusion Inversion Chain

論文の概要: Real-World Image Variation by Aligning Diffusion Inversion Chain

arxiv url: http://arxiv.org/abs/2305.18729v3
Date: Tue, 7 Nov 2023 03:34:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 19:31:14.372599
Title: Real-World Image Variation by Aligning Diffusion Inversion Chain
Title（参考訳）: 拡散反転チェーンの整列化による実世界画像の変動
Authors: Yuechen Zhang, Jinbo Xing, Eric Lo, Jiaya Jia
Abstract要約: 生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
参考スコア（独自算出の注目度）: 53.772004619296794
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent diffusion model advancements have enabled high-fidelity images to be generated using text prompts. However, a domain gap exists between generated images and real-world images, which poses a challenge in generating high-quality variations of real-world images. Our investigation uncovers that this domain gap originates from a latents' distribution gap in different diffusion processes. To address this issue, we propose a novel inference pipeline called Real-world Image Variation by ALignment (RIVAL) that utilizes diffusion models to generate image variations from a single image exemplar. Our pipeline enhances the generation quality of image variations by aligning the image generation process to the source image's inversion chain. Specifically, we demonstrate that step-wise latent distribution alignment is essential for generating high-quality variations. To attain this, we design a cross-image self-attention injection for feature interaction and a step-wise distribution normalization to align the latent features. Incorporating these alignment processes into a diffusion model allows RIVAL to generate high-quality image variations without further parameter optimization. Our experimental results demonstrate that our proposed approach outperforms existing methods concerning semantic similarity and perceptual quality. This generalized inference pipeline can be easily applied to other diffusion-based generation tasks, such as image-conditioned text-to-image generation and stylization.
Abstract（参考訳）: 近年の拡散モデルの発展により,テキストプロンプトによる高忠実度画像の生成が可能になった。しかし、生成された画像と実世界の画像の間にドメインギャップが存在し、実世界の画像の高品質なバリエーションを生成することが困難となる。この領域のギャップは、異なる拡散過程における潜伏者の分布ギャップに由来することが判明した。そこで本研究では,拡散モデルを用いて1つの画像から画像変動を生成する,実世界画像変動アライメント(rival)と呼ばれる新しい推定パイプラインを提案する。当社のパイプラインでは,画像生成プロセスをソース画像の反転チェーンに合わせることにより,画像変動の生成品質を向上させる。具体的には, ステップワイズ潜在分布アライメントが高品質な変動生成に不可欠であることを実証する。これを実現するために、機能相互作用のためのクロスイメージ自己注意注入と、遅延特徴を整合させるためにステップワイズ分布正規化を設計する。これらのアライメントプロセスを拡散モデルに組み込むことで、ライバルはさらなるパラメータ最適化なしに高品質な画像変動を生成することができる。提案手法は意味的類似性や知覚的品質に関する既存手法よりも優れていることを示す。この一般化推論パイプラインは、画像条件付きテキスト・ツー・イメージ生成やスタイリングなど、他の拡散ベースの生成タスクにも容易に適用できる。

関連論文リスト

Detecting Generated Images by Fitting Natural Image Distributions [75.31113784234877]
本稿では,自然画像と生成画像のデータ多様体間の幾何学的差異を利用した新しいフレームワークを提案する。自然画像に対して一貫した出力を出力するために設計された関数対を用いるが、生成した関数に対しては発散出力を用いる。データ多様体に沿った変換が、自然画像上で事前訓練された自己教師付きモデルの損失値に有意な変化をもたらす場合、画像は生成されたものとして識別される。
論文参考訳（メタデータ） (2025-11-03T07:20:38Z)
From Missing Pieces to Masterpieces: Image Completion with Context-Adaptive Diffusion [98.31811240195324]
ConFillは、各拡散ステップで生成された画像とオリジナル画像の差を小さくする新しいフレームワークである。現行の手法より優れており、画像補完の新しいベンチマークが設定されている。
論文参考訳（メタデータ） (2025-04-19T13:40:46Z)
Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文参考訳（メタデータ） (2024-11-17T17:45:37Z)
Merging and Splitting Diffusion Paths for Semantically Coherent Panoramas [33.334956022229846]
本稿では,Merge-Attend-Diffuse演算子を提案する。具体的には、拡散経路をマージし、自己および横断的意図をプログラムし、集約された潜在空間で操作する。提案手法は,生成した画像の入力プロンプトと視覚的品質との整合性を維持しつつ,セマンティック・コヒーレンスを増大させる。
論文参考訳（メタデータ） (2024-08-28T09:22:32Z)
IMPUS: Image Morphing with Perceptually-Uniform Sampling Using Diffusion Models [24.382275473592046]
知覚一様サンプリング(IMPUS)を用いた拡散型画像形成手法を提案する。 IMPUSは画像対を与えられた滑らかで直接的で現実的な適応を生成する。
論文参考訳（メタデータ） (2023-11-12T10:03:32Z)
Improving Diffusion-based Image Translation using Asymmetric Gradient Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-07T12:56:56Z)
SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。 SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文参考訳（メタデータ） (2022-11-22T18:00:03Z)
Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。 CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文参考訳（メタデータ） (2022-07-21T22:19:17Z)
Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文参考訳（メタデータ） (2020-09-18T17:52:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。