論文の概要: Don't Forget your Inverse DDIM for Image Editing
- arxiv url: http://arxiv.org/abs/2505.09571v1
- Date: Wed, 14 May 2025 17:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.544886
- Title: Don't Forget your Inverse DDIM for Image Editing
- Title(参考訳): 画像編集の逆DDIMを忘れてはいけない
- Authors: Guillermo Gomez-Trenado, Pablo Mesejo, Oscar Cordón, Stéphane Lathuilière,
- Abstract要約: 本稿では,事前学習した拡散モデルを利用した画像編集技術であるSAGEを紹介する。
SAGE は DDIM アルゴリズム上に構築され,拡散 U-Net の自己アテンション層を利用した新しい誘導機構が組み込まれている。
他の手法よりもSAGEの方が優れていることが定量的および質的な評価によって示され、統計的に検証された総合的ユーザスタディによって確認される。
- 参考スコア(独自算出の注目度): 17.396141503572963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of text-to-image generation has undergone significant advancements with the introduction of diffusion models. Nevertheless, the challenge of editing real images persists, as most methods are either computationally intensive or produce poor reconstructions. This paper introduces SAGE (Self-Attention Guidance for image Editing) - a novel technique leveraging pre-trained diffusion models for image editing. SAGE builds upon the DDIM algorithm and incorporates a novel guidance mechanism utilizing the self-attention layers of the diffusion U-Net. This mechanism computes a reconstruction objective based on attention maps generated during the inverse DDIM process, enabling efficient reconstruction of unedited regions without the need to precisely reconstruct the entire input image. Thus, SAGE directly addresses the key challenges in image editing. The superiority of SAGE over other methods is demonstrated through quantitative and qualitative evaluations and confirmed by a statistically validated comprehensive user study, in which all 47 surveyed users preferred SAGE over competing methods. Additionally, SAGE ranks as the top-performing method in seven out of 10 quantitative analyses and secures second and third places in the remaining three.
- Abstract(参考訳): テキスト・画像生成の分野は拡散モデルの導入によって大きな進歩を遂げている。
しかし、実際の画像の編集という課題は、ほとんどの方法が計算集約的であるか、貧弱な再構成を生成するため、継続する。
本稿では,SAGE(Self-Attention Guidance for Image Editing)について紹介する。
SAGE は DDIM アルゴリズム上に構築され,拡散 U-Net の自己アテンション層を利用した新しい誘導機構が組み込まれている。
この機構は、逆DDIMプロセス中に発生する注目マップに基づいて再構成対象を計算し、入力画像全体を正確に再構築することなく、未編集領域の効率的な再構成を可能にする。
したがって、SAGEは画像編集における重要な課題に直接対処する。
他の手法よりもSAGEの方が優れていることが定量的および質的な評価を通じて実証され、統計的に検証された総合的ユーザスタディによって確認され、47人の調査対象ユーザ全員が競合する手法よりもSAGEを好んだ。
また、佐賀は定量分析10点中7点で最高位にランクインし、残りの3点では第2位と第3位を確保している。
関連論文リスト
- UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z) - FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image
Editing [0.0]
本稿では,3つのサンプリング手法からなるFECを提案し,それぞれが異なる編集タイプと設定のために設計されている。
FECは、画像編集タスクにおいて、2つの重要な目標を達成している。
いずれのサンプリング手法も拡散モデルの微調整や大規模データセットの時間的訓練は不要である。
論文 参考訳(メタデータ) (2023-09-26T13:43:06Z) - Diffusion Models for Image Restoration and Enhancement -- A
Comprehensive Survey [96.99328714941657]
本稿では,近年の拡散モデルに基づく画像復元手法について概観する。
我々は、赤外線とブラインド/現実世界の両方で拡散モデルを用いて、革新的なデザインを分類し、強調する。
本稿では,拡散モデルに基づくIRの今後の研究に向けた5つの可能性と課題を提案する。
論文 参考訳(メタデータ) (2023-08-18T08:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。