論文の概要: Region-Aware Diffusion for Zero-shot Text-driven Image Editing
- arxiv url: http://arxiv.org/abs/2302.11797v1
- Date: Thu, 23 Feb 2023 06:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 16:21:13.848991
- Title: Region-Aware Diffusion for Zero-shot Text-driven Image Editing
- Title(参考訳): ゼロショットテキスト駆動画像編集のための領域認識拡散
- Authors: Nisha Huang, Fan Tang, Weiming Dong, Tong-Yee Lee, Changsheng Xu
- Abstract要約: 本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
- 参考スコア(独自算出の注目度): 78.58917623854079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image manipulation under the guidance of textual descriptions has recently
received a broad range of attention. In this study, we focus on the regional
editing of images with the guidance of given text prompts. Different from
current mask-based image editing methods, we propose a novel region-aware
diffusion model (RDM) for entity-level image editing, which could automatically
locate the region of interest and replace it following given text prompts. To
strike a balance between image fidelity and inference speed, we design the
intensive diffusion pipeline by combing latent space diffusion and enhanced
directional guidance. In addition, to preserve image content in non-edited
regions, we introduce regional-aware entity editing to modify the region of
interest and preserve the out-of-interest region. We validate the proposed RDM
beyond the baseline methods through extensive qualitative and quantitative
experiments. The results show that RDM outperforms the previous approaches in
terms of visual quality, overall harmonization, non-editing region content
preservation, and text-image semantic consistency. The codes are available at
https://github.com/haha-lisa/RDM-Region-Aware-Diffusion-Model.
- Abstract(参考訳): テキスト記述の指導の下での画像操作は最近、幅広い注目を集めている。
本研究では,テキストプロンプトの指導により,画像の地域編集に焦点をあてる。
現在のマスクベースの画像編集方法とは異なり、エンティティレベルの画像編集のための新しい領域認識拡散モデル(rdm)を提案する。
画像の忠実度と推論速度のバランスをとるために、遅延空間拡散と方向誘導の強化を組み合わせて集中拡散パイプラインを設計する。
また,非編集領域における画像コンテンツを保存するために,関心領域を編集し,関心領域を保存するための地域認識エンティティ編集を導入する。
提案するRDMは, 定性的, 定量的な実験により, ベースライン法を超えて検証する。
その結果, rdmは, 視覚品質, 全体的な調和, 非編集領域コンテンツ保存, テキスト・画像意味の一貫性において, 従来のアプローチよりも優れていた。
コードはhttps://github.com/haha-lisa/RDM-Region-Aware-Diffusion-Modelで公開されている。
関連論文リスト
- Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - LocInv: Localization-aware Inversion for Text-Guided Image Editing [17.611103794346857]
テキスト誘導画像編集研究は、ユーザーがテキストプロンプトを変更して生成した画像を操作できるようにすることを目的としている。
既存の画像編集技術は、意図した対象領域を超えて意図しない領域を編集する傾向がある。
そこで我々は, セグメンテーションマップやバウンディングボックスを付加的なローカライゼーションとして活用して, クロスアテンションマップを改良するローカライゼーション対応インバージョン(LocInv)を提案する。
論文 参考訳(メタデータ) (2024-05-02T17:27:04Z) - Eta Inversion: Designing an Optimal Eta Function for Diffusion-based Real Image Editing [2.5602836891933074]
実際の画像を編集するための一般的な戦略は、拡散過程を反転させて元の画像のノイズ表現を得る。
拡散反転の現在の方法は、しばしば特定のテキストプロンプトに忠実で、ソースイメージによく似ている編集を生成するのに苦労する。
本稿では, DDIMサンプリング式における$eta$の役割を理論的に解析し, 編集性の向上を図った, 実画像編集のための新規かつ適応的な拡散インバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-03-14T15:07:36Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion
Models [74.3811832586391]
本稿では,ユーザ指定の関心領域 (RoI) や追加のテキスト入力を必要としない拡散モデルにおける局所化画像編集のためのLIMEを提案する。
本手法では,事前学習した手法と単純なクラスタリング手法を用いて,正確なセマンティックセグメンテーションマップを得る。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Blended Diffusion for Text-driven Editing of Natural Images [18.664733153082146]
本稿では,局所的な(地域をベースとした)編集を自然言語で行うための最初のソリューションを提案する。
我々は、事前訓練された言語画像モデル(CLIP)を活用し、組み合わせることで、目標を達成する。
画像の異なる部分で編集された領域をシームレスに融合させるため、入力画像のノイズバージョンと局所テキスト誘導拡散潜時を空間的にブレンドする。
論文 参考訳(メタデータ) (2021-11-29T18:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。