論文の概要: EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods
- arxiv url: http://arxiv.org/abs/2310.02426v1
- Date: Tue, 3 Oct 2023 20:46:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:29:22.581080
- Title: EditVal: Benchmarking Diffusion Based Text-Guided Image Editing Methods
- Title(参考訳): editval: ベンチマーク拡散に基づくテキストガイド画像編集手法
- Authors: Samyadeep Basu, Mehrdad Saberi, Shweta Bhardwaj, Atoosa Malemir
Chegini, Daniela Massiceti, Maziar Sanjabi, Shell Xu Hu, Soheil Feizi
- Abstract要約: 本稿では,テキスト誘導画像編集手法を定量的に評価するための標準ベンチマークであるEditValを紹介する。
EditValは、画像のキュレートされたデータセットと、13の可能な編集タイプから抽出された各画像に対する編集可能な属性セットと、自動評価パイプラインで構成されている。
我々はEditValを用いて、SINE、Imagic、Instruct-Pix2Pixを含む8つの最先端拡散ベースの編集手法をベンチマークする。
- 参考スコア(独自算出の注目度): 52.43439659492655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A plethora of text-guided image editing methods have recently been developed
by leveraging the impressive capabilities of large-scale diffusion-based
generative models such as Imagen and Stable Diffusion. A standardized
evaluation protocol, however, does not exist to compare methods across
different types of fine-grained edits. To address this gap, we introduce
EditVal, a standardized benchmark for quantitatively evaluating text-guided
image editing methods. EditVal consists of a curated dataset of images, a set
of editable attributes for each image drawn from 13 possible edit types, and an
automated evaluation pipeline that uses pre-trained vision-language models to
assess the fidelity of generated images for each edit type. We use EditVal to
benchmark 8 cutting-edge diffusion-based editing methods including SINE, Imagic
and Instruct-Pix2Pix. We complement this with a large-scale human study where
we show that EditVall's automated evaluation pipeline is strongly correlated
with human-preferences for the edit types we considered. From both the human
study and automated evaluation, we find that: (i) Instruct-Pix2Pix, Null-Text
and SINE are the top-performing methods averaged across different edit types,
however {\it only} Instruct-Pix2Pix and Null-Text are able to preserve original
image properties; (ii) Most of the editing methods fail at edits involving
spatial operations (e.g., changing the position of an object). (iii) There is
no `winner' method which ranks the best individually across a range of
different edit types. We hope that our benchmark can pave the way to developing
more reliable text-guided image editing tools in the future. We will publicly
release EditVal, and all associated code and human-study templates to support
these research directions in https://deep-ml-research.github.io/editval/.
- Abstract(参考訳): 近年,imagenやstable diffusionのような大規模拡散ベース生成モデルの印象的な機能を活用して,テキストガイド付き画像編集手法が多数開発されている。
しかし、標準化された評価プロトコルは、様々な種類の細かい編集方法を比較するために存在しない。
このギャップに対処するために,テキストガイド画像編集手法を定量的に評価するための標準ベンチマークであるeditvalを紹介する。
EditValは、画像のキュレートされたデータセットと、可能な編集タイプ13から抽出された各画像に対する編集可能な属性セットと、事前トレーニングされた視覚言語モデルを使用して、編集タイプ毎に生成された画像の忠実度を評価する自動評価パイプラインで構成される。
我々はEditValを用いて、SINE、Imagic、Instruct-Pix2Pixを含む8つの最先端拡散ベースの編集手法をベンチマークする。
そこで我々は、EditVallの自動評価パイプラインが、私たちが検討した編集タイプに対する人間の嗜好と強く相関していることを示す。
人間の研究と自動評価の両方から、以下のことが分かる。
(i)Instruct-Pix2Pix、Null-Text、SINEは、異なる編集タイプで平均されるトップパフォーマンスメソッドであるが、Instruct-Pix2PixとNull-Textはオリジナルの画像プロパティを保存することができる。
(ii)ほとんどの編集方法は、空間的な操作(例えば、オブジェクトの位置を変更する)を伴う編集では失敗する。
(iii)様々な編集タイプにまたがって個別にベストをランク付けする「ウィナー」メソッドは存在しない。
将来、より信頼性の高いテキストガイド画像編集ツールの開発に、我々のベンチマークが道を開くことを期待しています。
EditValと関連するコードと人為的なテンプレートは、https://deep-ml-research.github.io/editval/で公開します。
関連論文リスト
- TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。
実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文 参考訳(メタデータ) (2024-01-18T18:58:44Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a
Single Image [2.999198565272416]
我々は,画像生成モデルを単一画像上で微調整することで,画像編集モデルに変換できることを観察する。
我々は、任意の画像とテキストによる編集記述を入力として取得し、入力画像への忠実度を維持しながら編集を行う、新しい画像編集方法UniTuneを提案する。
従来不可能であった視覚的変化を必要とするものを含む,驚くほど広い範囲の表現的編集操作を行うことが可能であることを実証した。
論文 参考訳(メタデータ) (2022-10-17T23:46:05Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。