論文の概要: UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a
Single Image
- arxiv url: http://arxiv.org/abs/2210.09477v4
- Date: Wed, 5 Jul 2023 12:35:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 23:55:36.380620
- Title: UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a
Single Image
- Title(参考訳): UniTune:単一画像上の拡散モデルを微調整したテキスト駆動画像編集
- Authors: Dani Valevski, Matan Kalman, Eyal Molad, Eyal Segalis, Yossi Matias,
Yaniv Leviathan
- Abstract要約: 我々は,画像生成モデルを単一画像上で微調整することで,画像編集モデルに変換できることを観察する。
我々は、任意の画像とテキストによる編集記述を入力として取得し、入力画像への忠実度を維持しながら編集を行う、新しい画像編集方法UniTuneを提案する。
従来不可能であった視覚的変化を必要とするものを含む,驚くほど広い範囲の表現的編集操作を行うことが可能であることを実証した。
- 参考スコア(独自算出の注目度): 2.999198565272416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven image generation methods have shown impressive results recently,
allowing casual users to generate high quality images by providing textual
descriptions. However, similar capabilities for editing existing images are
still out of reach. Text-driven image editing methods usually need edit masks,
struggle with edits that require significant visual changes and cannot easily
keep specific details of the edited portion. In this paper we make the
observation that image-generation models can be converted to image-editing
models simply by fine-tuning them on a single image. We also show that
initializing the stochastic sampler with a noised version of the base image
before the sampling and interpolating relevant details from the base image
after sampling further increase the quality of the edit operation. Combining
these observations, we propose UniTune, a novel image editing method. UniTune
gets as input an arbitrary image and a textual edit description, and carries
out the edit while maintaining high fidelity to the input image. UniTune does
not require additional inputs, like masks or sketches, and can perform multiple
edits on the same image without retraining. We test our method using the Imagen
model in a range of different use cases. We demonstrate that it is broadly
applicable and can perform a surprisingly wide range of expressive editing
operations, including those requiring significant visual changes that were
previously impossible.
- Abstract(参考訳): テキスト駆動画像生成手法は近年,文字記述を提供することで,カジュアルなユーザによる高品質な画像生成を実現している。
しかし、既存のイメージを編集する同様の機能は、まだ手が届かない。
テキストによる画像編集は通常、編集マスクが必要であり、重要な視覚的な変更を必要とする編集に苦労し、編集された部分の特定の詳細を保持できない。
本稿では,画像生成モデルを単一画像上で微調整することで,画像編集モデルに変換できることを観察する。
また、サンプリング前の確率的サンプリングをベース画像のノイズバージョンで初期化し、サンプリング後のベース画像から関連する詳細を補間することで、編集作業の質をさらに高めることを示す。
これらの観測と組み合わせて,新しい画像編集手法UniTuneを提案する。
unituneは任意の画像とテキスト編集記述を入力として取得し、入力画像に対する高い忠実性を維持しながら編集を実行する。
unituneはマスクやスケッチなどの追加入力を必要とせず、再トレーニングせずに同じイメージで複数の編集を実行することができる。
本手法は,imagenモデルを用いて様々なユースケースでテストを行う。
従来不可能であった視覚的変化を必要とするものを含む,驚くほど広い範囲の表現的編集操作を行うことが可能であることを実証した。
関連論文リスト
- Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。
実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文 参考訳(メタデータ) (2024-01-18T18:58:44Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image
Synthesis and Editing [54.712205852602736]
MasaCtrlは、一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要な手法である。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
大規模な実験により、提案したMashoCtrlは、一貫性のある画像生成と複雑な非厳密な実画像編集の両方において、印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-04-17T17:42:19Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。