論文の概要: Eliminating Prior Bias for Semantic Image Editing via Dual-Cycle
Diffusion
- arxiv url: http://arxiv.org/abs/2302.02394v2
- Date: Tue, 7 Feb 2023 02:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 12:14:36.197160
- Title: Eliminating Prior Bias for Semantic Image Editing via Dual-Cycle
Diffusion
- Title(参考訳): Dual-Cycle Diffusionによる意味的画像編集のための事前バイアスの除去
- Authors: Zuopeng Yang, Tianshu Chu, Xin Lin, Erdun Gao, Daqing Liu, Jie Yang,
Chaoyue Wang
- Abstract要約: 本稿では,画像編集の指針として非バイアスマスクを生成するDual-Cycle Diffusionモデルを提案する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
- 参考スコア(独自算出の注目度): 25.39849513782975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The recent success of text-to-image generation diffusion models has also
revolutionized semantic image editing, enabling the manipulation of images
based on query/target texts. Despite these advancements, a significant
challenge lies in the potential introduction of prior bias in pre-trained
models during image editing, e.g., making unexpected modifications to
inappropriate regions. To this point, we present a novel Dual-Cycle Diffusion
model that addresses the issue of prior bias by generating an unbiased mask as
the guidance of image editing. The proposed model incorporates a Bias
Elimination Cycle that consists of both a forward path and an inverted path,
each featuring a Structural Consistency Cycle to ensure the preservation of
image content during the editing process. The forward path utilizes the
pre-trained model to produce the edited image, while the inverted path converts
the result back to the source image. The unbiased mask is generated by
comparing differences between the processed source image and the edited image
to ensure that both conform to the same distribution. Our experiments
demonstrate the effectiveness of the proposed method, as it significantly
improves the D-CLIP score from 0.272 to 0.283. The code will be available at
https://github.com/JohnDreamer/DualCycleDiffsion.
- Abstract(参考訳): テキストから画像への拡散モデルの成功はセマンティック画像編集にも革命をもたらし、クエリ/ターゲットテキストに基づく画像操作を可能にした。
これらの進歩にもかかわらず、画像編集中に事前訓練されたモデルに事前バイアスを導入する可能性、例えば不適切な領域に予期せぬ修正を加えることが大きな課題である。
そこで本稿では,画像編集の指導として未バイアスマスクを生成し,先行バイアス問題に対処する2サイクル拡散モデルを提案する。
提案手法では,前方経路と逆経路の両方からなるバイアス除去サイクルを取り入れ,それぞれに構造的一貫性サイクルを特徴とし,編集過程における画像コンテンツの保存を保証する。
フォワードパスは事前学習されたモデルを使用して編集された画像を生成し、反転されたパスは結果をソース画像に戻す。
処理されたソース画像と編集された画像の差を比較して、両者が同じ分布に適合することを保証する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
コードはhttps://github.com/JohnDreamer/DualCycleDiffsion.comから入手できる。
関連論文リスト
- CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。
CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。
本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文 参考訳(メタデータ) (2024-08-22T14:12:20Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。
本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。
実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2024-03-17T06:19:30Z) - Perceptual Similarity guidance and text guidance optimization for
Editing Real Images using Guided Diffusion Models [0.6345523830122168]
我々は、変更されていない領域において、元の領域に高い忠実性を維持するために、二重誘導アプローチを適用した。
この方法では、編集された要素の現実的なレンダリングと、原画像の未編集部分の保存が保証される。
論文 参考訳(メタデータ) (2023-12-09T02:55:35Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。