論文の概要: DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided
Image Editing
- arxiv url: http://arxiv.org/abs/2310.08785v1
- Date: Thu, 12 Oct 2023 15:43:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 15:04:21.245178
- Title: DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided
Image Editing
- Title(参考訳): DeltaSpace: 柔軟なテキストガイド画像編集のためのセマンティックな機能空間
- Authors: Yueming Lyu, Kang Zhao, Bo Peng, Yue Jiang, Yingya Zhang, Jing Dong
- Abstract要約: テキスト誘導画像編集は、トレーニングと推論の柔軟性において大きな課題に直面している。
本稿では,CLIP の視覚的特徴差を生成モデルの潜在空間方向にマッピングする DeltaEdit という新しいフレームワークを提案する。
実験は、異なる生成モデルによるDeltaEditの有効性と汎用性を検証する。
- 参考スコア(独自算出の注目度): 22.354236929932476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image editing faces significant challenges to training and
inference flexibility. Much literature collects large amounts of annotated
image-text pairs to train text-conditioned generative models from scratch,
which is expensive and not efficient. After that, some approaches that leverage
pre-trained vision-language models are put forward to avoid data collection,
but they are also limited by either per text-prompt optimization or
inference-time hyper-parameters tuning. To address these issues, we investigate
and identify a specific space, referred to as CLIP DeltaSpace, where the CLIP
visual feature difference of two images is semantically aligned with the CLIP
textual feature difference of their corresponding text descriptions. Based on
DeltaSpace, we propose a novel framework called DeltaEdit, which maps the CLIP
visual feature differences to the latent space directions of a generative model
during the training phase, and predicts the latent space directions from the
CLIP textual feature differences during the inference phase. And this design
endows DeltaEdit with two advantages: (1) text-free training; (2)
generalization to various text prompts for zero-shot inference. Extensive
experiments validate the effectiveness and versatility of DeltaEdit with
different generative models, including both the GAN model and the diffusion
model, in achieving flexible text-guided image editing. Code is available at
https://github.com/Yueming6568/DeltaEdit.
- Abstract(参考訳): テキスト誘導画像編集は、トレーニングと推論の柔軟性において大きな課題に直面している。
多くの文献は大量の注釈付き画像テキストペアを収集し、テキスト条件付き生成モデルをスクラッチから訓練する。
その後、データ収集を避けるために事前学習された視覚言語モデルを活用するいくつかのアプローチが提案されるが、テキストプロンプト最適化や推論時間ハイパーパラメータチューニングによって制限される。
これらの問題に対処するために、CLIP DeltaSpaceと呼ばれる特定の空間を調査、同定し、2つの画像のCLIP視覚的特徴差は、対応するテキスト記述のCLIPテキスト的特徴差と意味的に一致している。
DeltaSpace に基づく新しいフレームワーク DeltaEdit を提案する。このフレームワークは,CLIP の視覚的特徴差を学習段階における生成モデルの潜時空間方向にマッピングし,推論段階におけるCLIP のテキスト的特徴差から潜時空間方向を予測する。
この設計はDeltaEditに、(1)テキストフリートレーニング、(2)ゼロショット推論のための様々なテキストプロンプトへの一般化の2つの利点を与える。
GANモデルと拡散モデルの両方を含む異なる生成モデルを用いてデルタ編集の有効性と汎用性を検証し、柔軟なテキストガイド画像編集を実現する。
コードはhttps://github.com/Yueming6568/DeltaEditで入手できる。
関連論文リスト
- Selective Vision-Language Subspace Projection for Few-shot CLIP [55.361337202198925]
SSP (Selective Vision-Language Subspace Projection) という手法を導入する。
SSPはローカルな画像特徴を取り入れ、それらをブリッジとして利用し、画像とテキストのペア間のアライメントを強化する。
提案手法では,学習不要な行列計算しか必要とせず,高度なCLIPベースの数ショット学習フレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-07-24T03:45:35Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - P+: Extended Textual Conditioning in Text-to-Image Generation [50.823884280133626]
テキスト・ツー・イメージ・モデルでは$P+$と呼ばれる拡張テキスト・コンディショニング・スペースを導入します。
拡張空間は画像合成に対してより密接な制御と制御を提供することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
論文 参考訳(メタデータ) (2023-03-16T17:38:15Z) - DeltaEdit: Exploring Text-free Training for Text-Driven Image
Manipulation [86.86227840278137]
これらの問題に対処するために,textitDeltaEdit という新しいフレームワークを提案する。
CLIPデルタ空間に基づいて、DeltaEditネットワークは、CLIPの視覚的特徴の違いをStyleGANの編集方向にマッピングするように設計されている。
論文 参考訳(メタデータ) (2023-03-11T02:38:31Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations [75.81725681546071]
Free-Form CLIPは、ある操作モデルがフリーフォームのテキストプロンプトを処理するように、自動ラテントマッピングを確立することを目的としている。
1種類の画像(例えば人間の肖像画)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
論文 参考訳(メタデータ) (2022-10-14T15:06:05Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。