Fugu-MT 論文翻訳(概要): Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion

論文の概要: Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion

arxiv url: http://arxiv.org/abs/2302.02394v3
Date: Thu, 5 Oct 2023 14:35:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 22:51:28.526727
Title: Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion
Title（参考訳）: Dual-Cycle Diffusionによる意味的画像編集のための文脈優先バイアスの除去
Authors: Zuopeng Yang, Tianshu Chu, Xin Lin, Erdun Gao, Daqing Liu, Jie Yang, Chaoyue Wang
Abstract要約: Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
参考スコア（独自算出の注目度）: 35.95513392917737
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The recent success of text-to-image generation diffusion models has also revolutionized semantic image editing, enabling the manipulation of images based on query/target texts. Despite these advancements, a significant challenge lies in the potential introduction of contextual prior bias in pre-trained models during image editing, e.g., making unexpected modifications to inappropriate regions. To address this issue, we present a novel approach called Dual-Cycle Diffusion, which generates an unbiased mask to guide image editing. The proposed model incorporates a Bias Elimination Cycle that consists of both a forward path and an inverted path, each featuring a Structural Consistency Cycle to ensure the preservation of image content during the editing process. The forward path utilizes the pre-trained model to produce the edited image, while the inverted path converts the result back to the source image. The unbiased mask is generated by comparing differences between the processed source image and the edited image to ensure that both conform to the same distribution. Our experiments demonstrate the effectiveness of the proposed method, as it significantly improves the D-CLIP score from 0.272 to 0.283. The code will be available at https://github.com/JohnDreamer/DualCycleDiffsion.
Abstract（参考訳）: テキストから画像への拡散モデルの成功はセマンティック画像編集にも革命をもたらし、クエリ/ターゲットテキストに基づく画像操作を可能にした。これらの進歩にもかかわらず、画像編集中に事前訓練されたモデルに文脈的事前バイアスを導入する可能性、例えば不適切な領域に予期せぬ修正を加えることが大きな課題である。この問題に対処するために、画像編集をガイドするアンバイアスマスクを生成するDual-Cycle Diffusionと呼ばれる新しいアプローチを提案する。提案手法では,前方経路と逆経路の両方からなるバイアス除去サイクルを取り入れ,それぞれに構造的一貫性サイクルを特徴とし,編集過程における画像コンテンツの保存を保証する。フォワードパスは事前学習されたモデルを使用して編集された画像を生成し、反転されたパスは結果をソース画像に戻す。処理されたソース画像と編集された画像の差を比較して、両者が同じ分布に適合することを保証する。提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。コードはhttps://github.com/JohnDreamer/DualCycleDiffsion.comから入手できる。

関連論文リスト

Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文参考訳（メタデータ） (2025-03-31T09:46:56Z)
Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文参考訳（メタデータ） (2024-11-25T16:41:45Z)
CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。 CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文参考訳（メタデータ） (2024-08-22T14:12:20Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文参考訳（メタデータ） (2024-05-24T07:53:59Z)
Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models [18.75409092764653]
テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
論文参考訳（メタデータ） (2024-03-17T06:19:30Z)
Perceptual Similarity guidance and text guidance optimization for Editing Real Images using Guided Diffusion Models [0.6345523830122168]
我々は、変更されていない領域において、元の領域に高い忠実性を維持するために、二重誘導アプローチを適用した。この方法では、編集された要素の現実的なレンダリングと、原画像の未編集部分の保存が保証される。
論文参考訳（メタデータ） (2023-12-09T02:55:35Z)
Improving Diffusion-based Image Translation using Asymmetric Gradient Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-07T12:56:56Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)
Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文参考訳（メタデータ） (2023-03-22T16:36:10Z)
Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文参考訳（メタデータ） (2023-02-06T18:59:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。