論文の概要: DiffEdit: Diffusion-based semantic image editing with mask guidance
- arxiv url: http://arxiv.org/abs/2210.11427v1
- Date: Thu, 20 Oct 2022 17:16:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:17:21.568650
- Title: DiffEdit: Diffusion-based semantic image editing with mask guidance
- Title(参考訳): DiffEdit: マスク誘導による拡散に基づく意味画像編集
- Authors: Guillaume Couairon, Jakob Verbeek, Holger Schwenk, Matthieu Cord
- Abstract要約: DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
- 参考スコア(独自算出の注目度): 64.555930158319
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Image generation has recently seen tremendous advances, with diffusion models
allowing to synthesize convincing images for a large variety of text prompts.
In this article, we propose DiffEdit, a method to take advantage of
text-conditioned diffusion models for the task of semantic image editing, where
the goal is to edit an image based on a text query. Semantic image editing is
an extension of image generation, with the additional constraint that the
generated image should be as similar as possible to a given input image.
Current editing methods based on diffusion models usually require to provide a
mask, making the task much easier by treating it as a conditional inpainting
task. In contrast, our main contribution is able to automatically generate a
mask highlighting regions of the input image that need to be edited, by
contrasting predictions of a diffusion model conditioned on different text
prompts. Moreover, we rely on latent inference to preserve content in those
regions of interest and show excellent synergies with mask-based diffusion.
DiffEdit achieves state-of-the-art editing performance on ImageNet. In
addition, we evaluate semantic image editing in more challenging settings,
using images from the COCO dataset as well as text-based generated images.
- Abstract(参考訳): 画像生成は、様々なテキストプロンプトのための説得力のある画像の合成を可能にする拡散モデルによって、最近大きく進歩した。
本稿では,テキストクエリに基づく画像編集を目標とするセマンティック画像編集作業において,テキスト条件付き拡散モデルを活用する手法であるDiffEditを提案する。
セマンティック画像編集(semantic image editing)は画像生成の拡張であり、生成された画像は入力画像と可能な限り類似すべきという追加の制約がある。
拡散モデルに基づく現在の編集方法は、通常マスクを提供する必要があり、条件付き塗装タスクとして扱うことでタスクをより簡単にすることができる。
対照的に,提案手法では,異なるテキストプロンプトを条件とした拡散モデルの予測を対比することにより,編集が必要な入力画像の領域を強調表示するマスクを自動的に生成することができる。
さらに,これらの領域のコンテンツ保存には潜時推論を頼りに,マスクによる拡散に優れた相乗効果を示す。
DiffEditはImageNetで最先端の編集性能を実現する。
さらに,COCOデータセットの画像とテキストベースの生成画像を用いて,セマンティックな画像編集をより困難な設定で評価する。
関連論文リスト
- Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。