論文の概要: TD-GEM: Text-Driven Garment Editing Mapper
- arxiv url: http://arxiv.org/abs/2305.18120v1
- Date: Mon, 29 May 2023 14:31:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 14:41:43.389150
- Title: TD-GEM: Text-Driven Garment Editing Mapper
- Title(参考訳): TD-GEM:テキスト駆動ガーメント編集マッパー
- Authors: Reza Dadfar, Sanaz Sabzevari, M\r{a}rten Bj\"orkman, Danica Kragic
- Abstract要約: ファッションアイテムをアンタングルに編集するためのテキスト駆動型ガーメント編集マッパー(TD-GEM)を提案する。
次に、最適化に基づくContrasive Language- Image Pre-trainingを用いて、ファッションイメージの潜在表現をガイドする。
我々のTD-GEMは、テキストプロンプトで表現された対象属性に従って、正確に画像を操作します。
- 参考スコア(独自算出の注目度): 15.121103742607383
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language-based fashion image editing allows users to try out variations of
desired garments through provided text prompts. Inspired by research on
manipulating latent representations in StyleCLIP and HairCLIP, we focus on
these latent spaces for editing fashion items of full-body human datasets.
Currently, there is a gap in handling fashion image editing due to the
complexity of garment shapes and textures and the diversity of human poses. In
this paper, we propose an editing optimizer scheme method called Text-Driven
Garment Editing Mapper (TD-GEM), aiming to edit fashion items in a disentangled
way. To this end, we initially obtain a latent representation of an image
through generative adversarial network inversions such as Encoder for Editing
(e4e) or Pivotal Tuning Inversion (PTI) for more accurate results. An
optimization-based Contrasive Language-Image Pre-training (CLIP) is then
utilized to guide the latent representation of a fashion image in the direction
of a target attribute expressed in terms of a text prompt. Our TD-GEM
manipulates the image accurately according to the target attribute, while other
parts of the image are kept untouched. In the experiments, we evaluate TD-GEM
on two different attributes (i.e., "color" and "sleeve length"), which
effectively generates realistic images compared to the recent manipulation
schemes.
- Abstract(参考訳): 言語ベースのファッション画像編集は、ユーザーがテキストプロンプトで好みの衣服のバリエーションを試すことができる。
StyleCLIPとHairCLIPの潜在表現を操作する研究から着想を得て、フルボディの人間のデータセットのファッションアイテムを編集する潜在空間に焦点を当てた。
現在、衣服の形状やテクスチャの複雑さや人間のポーズの多様性が原因で、ファッション画像編集の処理にギャップがある。
本稿では,ファッションアイテムの編集を目的としたtd-gem(text-driven clothing editing mapper)と呼ばれる編集最適化手法を提案する。
この目的のために、まず、より正確な結果を得るために、Encoder for Editing (e4e) やPivotal Tuning Inversion (PTI) のような生成的敵ネットワークインバージョンを通して画像の潜在表現を得る。
次に、最適化に基づくContrasive Language-Image Pre-training(CLIP)を用いて、テキストプロンプトによって表現されたターゲット属性の方向におけるファッションイメージの潜在表現を誘導する。
我々のTD-GEMはターゲット属性に従って画像を正確に操作し、画像の他の部分は無タッチで保持する。
実験では,TD-GEMを2つの属性(色と袖の長さ)で評価し,最近の操作方式と比較して現実的な画像を効果的に生成する。
関連論文リスト
- CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。