論文の概要: Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting
- arxiv url: http://arxiv.org/abs/2212.06909v2
- Date: Wed, 12 Apr 2023 22:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 17:16:07.497823
- Title: Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting
- Title(参考訳): imagen editorとeditbench: テキストガイド付き画像インパインティングの進歩と評価
- Authors: Su Wang, Chitwan Saharia, Ceslee Montgomery, Jordi Pont-Tuset, Shai
Noy, Stefano Pellegrini, Yasumasa Onoe, Sarah Laszlo, David J. Fleet, Radu
Soricut, Jason Baldridge, Mohammad Norouzi, Peter Anderson, William Chan
- Abstract要約: 本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
- 参考スコア(独自算出の注目度): 53.708523312636096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-guided image editing can have a transformative impact in supporting
creative applications. A key challenge is to generate edits that are faithful
to input text prompts, while consistent with input images. We present Imagen
Editor, a cascaded diffusion model built, by fine-tuning Imagen on text-guided
image inpainting. Imagen Editor's edits are faithful to the text prompts, which
is accomplished by using object detectors to propose inpainting masks during
training. In addition, Imagen Editor captures fine details in the input image
by conditioning the cascaded pipeline on the original high resolution image. To
improve qualitative and quantitative evaluation, we introduce EditBench, a
systematic benchmark for text-guided image inpainting. EditBench evaluates
inpainting edits on natural and generated images exploring objects, attributes,
and scenes. Through extensive human evaluation on EditBench, we find that
object-masking during training leads to across-the-board improvements in
text-image alignment -- such that Imagen Editor is preferred over DALL-E 2 and
Stable Diffusion -- and, as a cohort, these models are better at
object-rendering than text-rendering, and handle material/color/size attributes
better than count/shape attributes.
- Abstract(参考訳): テキスト誘導画像編集は、クリエイティブアプリケーションをサポートする上で、変革的な影響を与える可能性がある。
重要な課題は、入力画像と一致しながら、入力テキストプロンプトに忠実な編集を生成することである。
テキスト誘導画像のインペイントを微調整して作成した,カスケード拡散モデルである Imagen Editor を提案する。
imagen editorの編集はテキストプロンプトに忠実であり、オブジェクト検出器を使用してトレーニング中に塗り込みマスクを提案する。
さらに、Imagen Editorは、元の高解像度画像にカスケードパイプラインを条件付けすることで、入力画像の細部をキャプチャする。
質的・定量的評価を改善するために,テキストガイド画像インパインティングのための体系的ベンチマークであるeditbenchを提案する。
editbenchは、オブジェクト、属性、シーンを探索する自然画像および生成画像のインペインティング編集を評価する。
EditBench上での大規模な人的評価を通じて、トレーニング中のオブジェクトマスキングは、DALL-E 2やStable DiffusionよりもImagen Editorの方が好まれるような、テキストイメージアライメントの全面的な改善につながることが分かりました。
関連論文リスト
- ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - TIP-Editor: An Accurate 3D Editor Following Both Text-Prompts And Image-Prompts [119.84478647745658]
TIPEditorは、テキストと画像プロンプトの両方を受け入れる3Dシーン編集フレームワークであり、編集領域を指定するための3Dバウンディングボックスである。
TIP-Editorはテキストと画像のプロンプトに従って、指定されたバウンディングボックス領域で正確な編集を行うことを示した。
論文 参考訳(メタデータ) (2024-01-26T12:57:05Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。