論文の概要: DeltaEdit: Exploring Text-free Training for Text-Driven Image
Manipulation
- arxiv url: http://arxiv.org/abs/2303.06285v1
- Date: Sat, 11 Mar 2023 02:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:55:33.382311
- Title: DeltaEdit: Exploring Text-free Training for Text-Driven Image
Manipulation
- Title(参考訳): DeltaEdit: テキスト駆動イメージ操作のためのテキストフリートレーニング
- Authors: Yueming Lyu, Tianwei Lin, Fu Li, Dongliang He, Jing Dong, Tieniu Tan
- Abstract要約: これらの問題に対処するために,textitDeltaEdit という新しいフレームワークを提案する。
CLIPデルタ空間に基づいて、DeltaEditネットワークは、CLIPの視覚的特徴の違いをStyleGANの編集方向にマッピングするように設計されている。
- 参考スコア(独自算出の注目度): 86.86227840278137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven image manipulation remains challenging in training or inference
flexibility. Conditional generative models depend heavily on expensive
annotated training data. Meanwhile, recent frameworks, which leverage
pre-trained vision-language models, are limited by either per text-prompt
optimization or inference-time hyper-parameters tuning. In this work, we
propose a novel framework named \textit{DeltaEdit} to address these problems.
Our key idea is to investigate and identify a space, namely delta image and
text space that has well-aligned distribution between CLIP visual feature
differences of two images and CLIP textual embedding differences of source and
target texts. Based on the CLIP delta space, the DeltaEdit network is designed
to map the CLIP visual features differences to the editing directions of
StyleGAN at training phase. Then, in inference phase, DeltaEdit predicts the
StyleGAN's editing directions from the differences of the CLIP textual
features. In this way, DeltaEdit is trained in a text-free manner. Once
trained, it can well generalize to various text prompts for zero-shot inference
without bells and whistles. Code is available at
https://github.com/Yueming6568/DeltaEdit.
- Abstract(参考訳): テキスト駆動の画像操作は、トレーニングや推論の柔軟性において依然として難しい。
条件生成モデルは高価な注釈付きトレーニングデータに大きく依存する。
一方、事前訓練された視覚言語モデルを利用する最近のフレームワークは、テキストプロンプト最適化または推論時ハイパーパラメータチューニングによって制限されている。
本研究では,これらの問題に対処する新しいフレームワークであるtextit{DeltaEdit}を提案する。
私たちのキーとなるアイデアは、CLIPの視覚的特徴差と、ソースとターゲットのテキストのテキスト埋め込み差との間によく整合した分布を持つデルタ画像とテキスト空間を調査・同定することである。
CLIPデルタ空間に基づいて、DeltaEditネットワークは、CLIPの視覚的特徴の違いをトレーニングフェーズにおけるStyleGANの編集方向にマッピングするように設計されている。
そして、推測フェーズにおいて、DeltaEditはCLIPテキスト機能の違いからStyleGANの編集方向を予測する。
このように、DeltaEditはテキストフリーでトレーニングされる。
一度訓練すると、ベルや笛なしでゼロショット推論のために様々なテキストプロンプトにうまく一般化できる。
コードはhttps://github.com/Yueming6568/DeltaEditで入手できる。
関連論文リスト
- VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided
Image Editing [22.354236929932476]
テキスト誘導画像編集は、トレーニングと推論の柔軟性において大きな課題に直面している。
本稿では,CLIP の視覚的特徴差を生成モデルの潜在空間方向にマッピングする DeltaEdit という新しいフレームワークを提案する。
実験は、異なる生成モデルによるDeltaEditの有効性と汎用性を検証する。
論文 参考訳(メタデータ) (2023-10-12T15:43:12Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations [75.81725681546071]
Free-Form CLIPは、ある操作モデルがフリーフォームのテキストプロンプトを処理するように、自動ラテントマッピングを確立することを目的としている。
1種類の画像(例えば人間の肖像画)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
論文 参考訳(メタデータ) (2022-10-14T15:06:05Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。