論文の概要: UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation
Model on a Single Image
- arxiv url: http://arxiv.org/abs/2210.09477v2
- Date: Wed, 19 Oct 2022 17:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:53:11.740633
- Title: UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation
Model on a Single Image
- Title(参考訳): UniTune:単一画像上の画像生成モデルを微調整したテキスト駆動画像編集
- Authors: Dani Valevski, Matan Kalman, Yossi Matias, Yaniv Leviathan
- Abstract要約: We present UniTune, a simple and novel method for general text-driven image editing。
UniTuneは任意の画像とテキストの編集記述を入力として取得し、入力画像に対して高い意味と視覚的忠実性を維持しながら編集を実行する。
- 参考スコア(独自算出の注目度): 3.5150821092068383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UniTune, a simple and novel method for general text-driven image
editing. UniTune gets as input an arbitrary image and a textual edit
description, and carries out the edit while maintaining high semantic and
visual fidelity to the input image. UniTune uses text, an intuitive interface
for art-direction, and does not require additional inputs, like masks or
sketches. At the core of our method is the observation that with the right
choice of parameters, we can fine-tune a large text-to-image diffusion model on
a single image, encouraging the model to maintain fidelity to the input image
while still allowing expressive manipulations. We used Imagen as our
text-to-image model, but we expect UniTune to work with other large-scale
models as well. We test our method in a range of different use cases, and
demonstrate its wide applicability.
- Abstract(参考訳): 本稿では,汎用テキスト編集のための簡易かつ新規な方法であるunituneを提案する。
unituneは任意の画像とテキスト編集記述を入力として取得し、入力画像に対する高い意味と視覚的忠実性を維持しながら編集を実行する。
UniTuneは、アート指向のための直感的なインターフェースであるテキストを使用し、マスクやスケッチなどの追加入力を必要としない。
提案手法の核心は,パラメータの選択が適切であれば,単一の画像上で大きなテキストから画像への拡散モデルを微調整できるという観察である。
私たちはImagenをテキスト・画像モデルとして使用しましたが、UniTuneは他の大規模モデルとも連携することを期待しています。
本手法をさまざまなユースケースでテストし,その適用性を示す。
関連論文リスト
- Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。
実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文 参考訳(メタデータ) (2024-01-18T18:58:44Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image
Synthesis and Editing [54.712205852602736]
MasaCtrlは、一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要な手法である。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
大規模な実験により、提案したMashoCtrlは、一貫性のある画像生成と複雑な非厳密な実画像編集の両方において、印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-04-17T17:42:19Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。