Fugu-MT 論文翻訳(概要): DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing

論文の概要: DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing

arxiv url: http://arxiv.org/abs/2506.02560v1
Date: Tue, 03 Jun 2025 07:46:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.408393
Title: DCI: Dual-Conditional Inversion for Boosting Diffusion-Based Image Editing
Title（参考訳）: DCI:拡散に基づく画像編集の強化のためのデュアルコンディショナルインバージョン
Authors: Zixiang Li, Haoyu Wang, Wei Wang, Chuangchuang Tan, Yunchao Wei, Yao Zhao,
Abstract要約: Diffusionモデル内のインバージョンは、実または生成された画像の潜時雑音表現を復元することを目的としている。ほとんどの反転アプローチは、復元精度と編集の柔軟性の間の本質的にのトレードオフに悩まされている。本稿ではDCI(Dual-Conditional Inversion)について紹介する。
参考スコア（独自算出の注目度）: 73.12011187146481
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have achieved remarkable success in image generation and editing tasks. Inversion within these models aims to recover the latent noise representation for a real or generated image, enabling reconstruction, editing, and other downstream tasks. However, to date, most inversion approaches suffer from an intrinsic trade-off between reconstruction accuracy and editing flexibility. This limitation arises from the difficulty of maintaining both semantic alignment and structural consistency during the inversion process. In this work, we introduce Dual-Conditional Inversion (DCI), a novel framework that jointly conditions on the source prompt and reference image to guide the inversion process. Specifically, DCI formulates the inversion process as a dual-condition fixed-point optimization problem, minimizing both the latent noise gap and the reconstruction error under the joint guidance. This design anchors the inversion trajectory in both semantic and visual space, leading to more accurate and editable latent representations. Our novel setup brings new understanding to the inversion process. Extensive experiments demonstrate that DCI achieves state-of-the-art performance across multiple editing tasks, significantly improving both reconstruction quality and editing precision. Furthermore, we also demonstrate that our method achieves strong results in reconstruction tasks, implying a degree of robustness and generalizability approaching the ultimate goal of the inversion process.
Abstract（参考訳）: 拡散モデルは画像生成および編集タスクにおいて顕著な成功を収めた。これらのモデル内のインバージョンは、実または生成された画像の遅延ノイズ表現を復元することを目的としており、再構成、編集、その他の下流タスクを可能にする。しかし、これまではほとんどの反転アプローチは、復元精度と編集の柔軟性の間の本質的にのトレードオフに悩まされてきた。この制限は、反転過程中に意味的整合性と構造的整合性を維持するのが困難であることから生じる。本稿では,DCI(Dual-Conditional Inversion)について紹介する。具体的には、DCIは2条件の固定点最適化問題として反転過程を定式化し、結合誘導の下での遅延ノイズギャップと再構成誤差を最小化する。この設計は、意味空間と視覚空間の両方に反転軌道を固定し、より正確で編集可能な潜在表現をもたらす。私たちの新しいセットアップは、反転プロセスに新しい理解をもたらします。大規模な実験により、DCIは複数の編集タスクにまたがって最先端のパフォーマンスを達成し、再構築品質と編集精度の両方を著しく改善した。さらに,本手法は, インバージョンプロセスの最終的な目標に迫る, 強靭性と一般化性の程度を示唆し, 再構成作業において強い結果をもたらすことを示す。

関連論文リスト

MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models [60.110274007388135]
MambaStyleは、GANインバージョンと編集のための効率的なシングルステージエンコーダベースのアプローチである。 MambaStyleは、逆精度、編集品質、計算効率のバランスが優れていることを示す。
論文参考訳（メタデータ） (2025-05-06T20:03:47Z)
Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文参考訳（メタデータ） (2024-11-29T12:11:28Z)
ERDDCI: Exact Reversible Diffusion via Dual-Chain Inversion for High-Quality Image Editing [20.46262679357339]
拡散モデル(DM)は実画像編集に成功している。近年のDMは、しばしば局所線形化の仮定に依存している。 ERDDCIは、新しいDual-Chain Inversion (DCI) を用いて関節推論を行い、正確な可逆拡散過程を導出する。
論文参考訳（メタデータ） (2024-10-18T07:52:03Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。 TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文参考訳（メタデータ） (2023-12-22T11:13:22Z)
Spatial-Contextual Discrepancy Information Compensation for GAN Inversion [67.21442893265973]
空間的不一致情報補償に基づく新しいGAN-inversion法(SDIC)を提案する。 SDICは、オリジナルの画像と再構成/編集された画像との間の画像詳細のギャップを埋める。提案手法は,画像インバージョンと編集作業の両方において,高速な推論速度で優れた歪み適応性トレードオフを実現する。
論文参考訳（メタデータ） (2023-12-12T08:58:56Z)
Effective Real Image Editing with Accelerated Iterative Diffusion Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文参考訳（メタデータ） (2023-09-10T01:23:05Z)
ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing [20.39792009151017]
StyleGANは、セマンティックリッチな潜在スタイル空間を操作することで、生成した画像の柔軟で妥当な編集を可能にする。実際の画像をその潜在空間に投影することは、反転品質と編集性の間に固有のトレードオフに遭遇する。本稿では,2つの異なるネットワークをそれぞれ編集と再構築に用い,新しい2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2023-01-31T04:38:42Z)
Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文参考訳（メタデータ） (2022-07-17T10:34:58Z)
High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文参考訳（メタデータ） (2021-09-14T11:23:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。