論文の概要: Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance
- arxiv url: http://arxiv.org/abs/2306.04396v1
- Date: Wed, 7 Jun 2023 12:56:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 14:31:28.805990
- Title: Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance
- Title(参考訳): 非対称勾配誘導による拡散に基づく画像変換の改善
- Authors: Gihyun Kwon, Jong Chul Ye
- Abstract要約: 非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 51.188396199083336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have shown significant progress in image translation tasks
recently. However, due to their stochastic nature, there's often a trade-off
between style transformation and content preservation. Current strategies aim
to disentangle style and content, preserving the source image's structure while
successfully transitioning from a source to a target domain under text or
one-shot image conditions. Yet, these methods often require computationally
intense fine-tuning of diffusion models or additional neural networks. To
address these challenges, here we present an approach that guides the reverse
process of diffusion sampling by applying asymmetric gradient guidance. This
results in quicker and more stable image manipulation for both text-guided and
image-guided image translation. Our model's adaptability allows it to be
implemented with both image- and latent-diffusion models. Experiments show that
our method outperforms various state-of-the-art models in image translation
tasks.
- Abstract(参考訳): 拡散モデルは最近、画像翻訳タスクが著しく進歩している。
しかし、その確率的な性質のため、スタイル変換とコンテンツ保存の間にはしばしばトレードオフがあります。
現在の戦略は、テキストまたはワンショット画像条件下でソースからターゲットドメインへの移行を成功させながら、スタイルとコンテンツを分離し、ソースイメージの構造を保存することを目的としている。
しかし、これらの手法は、しばしば拡散モデルや追加のニューラルネットワークの計算量的に激しい微調整を必要とする。
これらの課題に対処するため、非対称勾配ガイダンスを適用して拡散サンプリングの逆過程を導出する手法を提案する。
これにより、テキスト誘導画像と画像誘導画像の両方に対する高速で安定した画像操作が可能となる。
我々のモデルの適応性は、画像拡散モデルと潜在拡散モデルの両方で実装できる。
画像翻訳タスクにおいて,本手法が様々な最先端モデルを上回ることを示す実験を行った。
関連論文リスト
- Oscillation Inversion: Understand the structure of Large Flow Model through the Lens of Inversion Method [60.88467353578118]
実世界のイメージを逆転させる固定点インスパイアされた反復的アプローチは収束を達成せず、異なるクラスタ間で振動することを示す。
本稿では,画像強調,ストロークベースのリカラー化,および視覚的プロンプト誘導画像編集を容易にする,シンプルで高速な分布転送手法を提案する。
論文 参考訳(メタデータ) (2024-11-17T17:45:37Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style
Transfer [38.957512116073616]
我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。
本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
論文 参考訳(メタデータ) (2023-03-15T13:47:02Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - MIDMs: Matching Interleaved Diffusion Models for Exemplar-based Image
Translation [29.03892463588357]
マッチング型インターリーブド拡散モデル (MIDM) と呼ばれる, 画像翻訳のための新しい手法を提案する。
拡散に基づくマッチング・アンド・ジェネレーション・フレームワークを定式化し、ドメイン間マッチングと拡散ステップを潜時空間でインターリーブする。
拡散過程の信頼性を向上させるため,サイクル整合性を用いた信頼度対応プロセスの設計を行い,信頼度の高い領域のみを考える。
論文 参考訳(メタデータ) (2022-09-22T14:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。