論文の概要: Zero-shot Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2302.03027v1
- Date: Mon, 6 Feb 2023 18:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 15:16:54.754595
- Title: Zero-shot Image-to-Image Translation
- Title(参考訳): ゼロショット画像から画像への変換
- Authors: Gaurav Parmar, Krishna Kumar Singh, Richard Zhang, Yijun Li, Jingwan
Lu, Jun-Yan Zhu
- Abstract要約: 手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
- 参考スコア(独自算出の注目度): 57.46189236379433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale text-to-image generative models have shown their remarkable
ability to synthesize diverse and high-quality images. However, it is still
challenging to directly apply these models for editing real images for two
reasons. First, it is hard for users to come up with a perfect text prompt that
accurately describes every visual detail in the input image. Second, while
existing models can introduce desirable changes in certain regions, they often
dramatically alter the input content and introduce unexpected changes in
unwanted regions. In this work, we propose pix2pix-zero, an image-to-image
translation method that can preserve the content of the original image without
manual prompting. We first automatically discover editing directions that
reflect desired edits in the text embedding space. To preserve the general
content structure after editing, we further propose cross-attention guidance,
which aims to retain the cross-attention maps of the input image throughout the
diffusion process. In addition, our method does not need additional training
for these edits and can directly use the existing pre-trained text-to-image
diffusion model. We conduct extensive experiments and show that our method
outperforms existing and concurrent works for both real and synthetic image
editing.
- Abstract(参考訳): 大規模テキスト画像生成モデルは、多彩で高品質な画像を合成する優れた能力を示している。
しかし、2つの理由から実際の画像の編集にこれらのモデルを直接適用することは依然として困難である。
まず、ユーザーが入力画像の視覚的詳細を正確に記述する完璧なテキストプロンプトを思いつくのは困難である。
第二に、既存のモデルは特定の領域に望ましい変化をもたらすが、入力内容が劇的に変化し、望ましくない領域に予期しない変化をもたらすことが多い。
本研究では,手作業でプロンプトすることなくオリジナル画像の内容を保存できる画像から画像への変換手法pix2pix-zeroを提案する。
まずテキスト埋め込み空間で所望の編集を反映する編集方向を自動的に発見する。
編集後の一般的なコンテンツ構造を維持するため,拡散過程を通して入力画像の横断的アテンションマップを維持することを目的としたクロスアテンションガイダンスも提案する。
さらに,本手法では,これらの編集のための追加の訓練を必要とせず,既存のトレーニング済みテキスト・画像拡散モデルを直接利用できる。
提案手法は,実画像編集と合成画像編集の両方において,既存および同時処理よりも優れた性能を示す。
関連論文リスト
- Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。