論文の概要: Forgedit: Text Guided Image Editing via Learning and Forgetting
- arxiv url: http://arxiv.org/abs/2309.10556v1
- Date: Tue, 19 Sep 2023 12:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:45:29.392847
- Title: Forgedit: Text Guided Image Editing via Learning and Forgetting
- Title(参考訳): Forgedit:学習と学習によるテキストガイド画像編集
- Authors: Shiwen Zhang, Shuai Xiao, Weilin Huang
- Abstract要約: 本稿では,新しいテキストガイド画像編集手法 Forgedit を提案する。
まず,視覚言語による共同学習により,与えられた画像を1分以内で再構築することを学ぶ,新しい微調整フレームワークを提案する。
また、拡散モデルにおけるUNet構造の一般的な性質を見つけ、そのような発見に触発されて、致命的な過適合問題を減少させるために、忘れる戦略を設計する。
- 参考スコア(独自算出の注目度): 19.407190860935888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text guided image editing on real images given only the image and the target
text prompt as inputs, is a very general and challenging problem, which
requires the editing model to reason by itself which part of the image should
be edited, to preserve the characteristics of original image, and also to
perform complicated non-rigid editing. Previous fine-tuning based solutions are
time-consuming and vulnerable to overfitting, limiting their editing
capabilities. To tackle these issues, we design a novel text guided image
editing method, Forgedit. First, we propose a novel fine-tuning framework which
learns to reconstruct the given image in less than one minute by vision
language joint learning. Then we introduce vector subtraction and vector
projection to explore the proper text embedding for editing. We also find a
general property of UNet structures in Diffusion Models and inspired by such a
finding, we design forgetting strategies to diminish the fatal overfitting
issues and significantly boost the editing abilities of Diffusion Models. Our
method, Forgedit, implemented with Stable Diffusion, achieves new
state-of-the-art results on the challenging text guided image editing benchmark
TEdBench, surpassing the previous SOTA method Imagic with Imagen, in terms of
both CLIP score and LPIPS score. Codes are available at
https://github.com/witcherofresearch/Forgedit.
- Abstract(参考訳): 画像と対象テキストプロンプトのみを入力として与えた実画像に対するテキスト案内画像編集は、非常に一般的かつ困難な問題であり、編集モデルは、画像のどの部分を編集すべきかを判断し、元の画像の特徴を保存し、複雑な非剛性編集を行う必要がある。
以前の微調整ベースのソリューションは時間を要するため、オーバーフィッティングに対して脆弱であり、編集能力に制限がある。
これらの課題に対処するため,新しいテキストガイド画像編集手法 Forgedit を設計した。
まず,視覚言語共同学習により,与えられた画像を1分以内で再構成することを学ぶ新しい微調整フレームワークを提案する。
次に、ベクトルサブトラクションとベクトル投影を導入し、編集に適したテキスト埋め込みを探索する。
我々はまた,拡散モデルにおけるUNet構造の一般的な性質を見いだし,そのような発見に触発されて,致命的な過適合問題を低減し,拡散モデルの編集能力を著しく向上させるために,忘れる戦略を設計する。
本手法は,テキストガイド画像編集ベンチマークtedbenchにおいて,クリップスコアとlpipsスコアの両方において,従来のsomaメソッドimagicとimagenを上回って,新たな最先端の成果を実現した。
コードはhttps://github.com/witcherofresearch/forgeditで入手できる。
関連論文リスト
- TurboEdit: Instant text-based image editing [32.06820085957286]
我々は,数ステップの拡散モデルを用いて,正確な画像逆転と非交叉画像編集の課題に対処する。
本稿では,エンコーダをベースとした反復インバージョン手法を提案する。このインバージョンネットワークは,入力画像と前ステップからの再構成画像に条件付けされており,次の再構成を入力画像に向けて修正することができる。
提案手法は, リアルタイムなテキストガイド画像編集を容易にするため, インバージョンでは8つの機能評価 (NFE) と4つのNFE (NFE) しか必要としない。
論文 参考訳(メタデータ) (2024-08-14T18:02:24Z) - The Devil is in the Details: StyleFeatureEditor for Detail-Rich StyleGAN Inversion and High Quality Image Editing [3.58736715327935]
本稿では,w-latentとF-latentの両方で編集できる新しい方法であるStyleFeatureEditorを紹介する。
また、Fレイテンシーを正確に編集するためのモデルをトレーニングするために特別に設計された新しいトレーニングパイプラインも提示する。
提案手法は最先端の符号化手法と比較し, モデルが復元品質の点で優れていることを示す。
論文 参考訳(メタデータ) (2024-06-15T11:28:32Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - UniTune: Text-Driven Image Editing by Fine Tuning a Diffusion Model on a
Single Image [2.999198565272416]
我々は,画像生成モデルを単一画像上で微調整することで,画像編集モデルに変換できることを観察する。
我々は、任意の画像とテキストによる編集記述を入力として取得し、入力画像への忠実度を維持しながら編集を行う、新しい画像編集方法UniTuneを提案する。
従来不可能であった視覚的変化を必要とするものを含む,驚くほど広い範囲の表現的編集操作を行うことが可能であることを実証した。
論文 参考訳(メタデータ) (2022-10-17T23:46:05Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。