Fugu-MT 論文翻訳(概要): Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models

論文の概要: Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models

arxiv url: http://arxiv.org/abs/2403.11105v1
Date: Sun, 17 Mar 2024 06:19:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 18:35:30.773929
Title: Source Prompt Disentangled Inversion for Boosting Image Editability with Diffusion Models
Title（参考訳）: 拡散モデルによる画像編集性向上のためのソース・プロンプト・アンタングル・インバージョン
Authors: Ruibin Li, Ruihuang Li, Song Guo, Lei Zhang,
Abstract要約: テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。本稿では、ソースプロンプトの影響を低減することを目的とした、SPDInv(Source Prompt Disentangled Inversion)と呼ばれる新しい手法を提案する。実験の結果,提案手法はターゲット編集プロンプトとソースプロンプトの衝突を効果的に軽減できることがわかった。
参考スコア（独自算出の注目度）: 18.75409092764653
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-driven diffusion models have significantly advanced the image editing performance by using text prompts as inputs. One crucial step in text-driven image editing is to invert the original image into a latent noise code conditioned on the source prompt. While previous methods have achieved promising results by refactoring the image synthesizing process, the inverted latent noise code is tightly coupled with the source prompt, limiting the image editability by target text prompts. To address this issue, we propose a novel method called Source Prompt Disentangled Inversion (SPDInv), which aims at reducing the impact of source prompt, thereby enhancing the text-driven image editing performance by employing diffusion models. To make the inverted noise code be independent of the given source prompt as much as possible, we indicate that the iterative inversion process should satisfy a fixed-point constraint. Consequently, we transform the inversion problem into a searching problem to find the fixed-point solution, and utilize the pre-trained diffusion models to facilitate the searching process. The experimental results show that our proposed SPDInv method can effectively mitigate the conflicts between the target editing prompt and the source prompt, leading to a significant decrease in editing artifacts. In addition to text-driven image editing, with SPDInv we can easily adapt customized image generation models to localized editing tasks and produce promising performance. The source code are available at https://github.com/leeruibin/SPDInv.
Abstract（参考訳）: テキスト駆動拡散モデルでは、テキストプロンプトを入力として使用することにより、画像編集性能が大幅に向上した。テキスト駆動画像編集における重要なステップの1つは、元の画像をソースプロンプトに条件付き遅延ノイズコードに変換することである。従来の手法では画像合成プロセスのリファクタリングによって有望な結果が得られたが、逆潜時雑音符号はソースプロンプトと密結合され、ターゲットテキストプロンプトによる画像編集性が制限される。そこで本研究では,ソースプロンプトの影響を低減し,拡散モデルを用いてテキスト駆動画像編集性能を向上させることを目的とした,ソース・プロンプト・ディスタングル・インバージョン(SPDInv)と呼ばれる新しい手法を提案する。インバータ型ノイズコードを与えられたソースプロンプトから可能な限り独立にするためには、反復的逆転処理が固定点制約を満たすべきであることを示す。その結果, インバージョン問題を探索問題に変換し, 定点解を求めるとともに, 事前学習した拡散モデルを用いて探索プロセスを容易にする。実験の結果,提案手法は,対象の編集プロンプトとソースプロンプトとの衝突を効果的に軽減し,編集アーティファクトの大幅な減少を図っている。テキスト駆動画像編集に加えて、SPDInvにより、ローカル化された編集タスクにカスタマイズされた画像生成モデルを適応し、有望なパフォーマンスを実現することができる。ソースコードはhttps://github.com/leeruibin/SPDInv.comで入手できる。

関連論文リスト

ProEdit: Inversion-based Editing From Prompts Done Right [63.554692704101]
インバージョンベースのビジュアル編集は、ユーザ指示に基づいて画像やビデオを編集するための効果的でトレーニングのない方法を提供する。既存の方法は、通常、編集一貫性を維持するためにサンプリングプロセス中にソースイメージ情報を注入する。注意点と潜伏点の両方においてこの問題に対処するProEditを提案する。
論文参考訳（メタデータ） (2025-12-26T18:59:14Z)
EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文参考訳（メタデータ） (2025-10-23T05:06:24Z)
Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文参考訳（メタデータ） (2025-03-31T09:46:56Z)
TurboEdit: Instant text-based image editing [32.06820085957286]
我々は,数ステップの拡散モデルを用いて,正確な画像逆転と非交叉画像編集の課題に対処する。本稿では,エンコーダをベースとした反復インバージョン手法を提案する。このインバージョンネットワークは,入力画像と前ステップからの再構成画像に条件付けされており,次の再構成を入力画像に向けて修正することができる。提案手法は, リアルタイムなテキストガイド画像編集を容易にするため, インバージョンでは8つの機能評価 (NFE) と4つのNFE (NFE) しか必要としない。
論文参考訳（メタデータ） (2024-08-14T18:02:24Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文参考訳（メタデータ） (2024-05-24T07:53:59Z)
Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文参考訳（メタデータ） (2024-04-24T17:59:11Z)
DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文参考訳（メタデータ） (2024-02-04T18:50:29Z)
InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文参考訳（メタデータ） (2023-07-22T17:05:47Z)
iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文参考訳（メタデータ） (2023-05-10T07:39:14Z)
Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文参考訳（メタデータ） (2023-02-05T14:30:22Z)
Null-text Inversion for Editing Real Images using Guided Diffusion Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文参考訳（メタデータ） (2022-11-17T18:58:14Z)
DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文参考訳（メタデータ） (2022-10-20T17:16:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。