論文の概要: FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion
- arxiv url: http://arxiv.org/abs/2301.02110v1
- Date: Thu, 5 Jan 2023 15:33:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:14:32.242423
- Title: FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion
- Title(参考訳): FICE: ガイド付きGANインバージョンでテキストによるファッション画像編集
- Authors: Martin Pernu\v{s}, Clinton Fookes, Vitomir \v{S}truc, Simon
Dobri\v{s}ek
- Abstract要約: 本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
- 参考スコア(独自算出の注目度): 16.583537785874604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fashion-image editing represents a challenging computer vision task, where
the goal is to incorporate selected apparel into a given input image. Most
existing techniques, known as Virtual Try-On methods, deal with this task by
first selecting an example image of the desired apparel and then transferring
the clothing onto the target person. Conversely, in this paper, we consider
editing fashion images with text descriptions. Such an approach has several
advantages over example-based virtual try-on techniques, e.g.: (i) it does not
require an image of the target fashion item, and (ii) it allows the expression
of a wide variety of visual concepts through the use of natural language.
Existing image-editing methods that work with language inputs are heavily
constrained by their requirement for training sets with rich attribute
annotations or they are only able to handle simple text descriptions. We
address these constraints by proposing a novel text-conditioned editing model,
called FICE (Fashion Image CLIP Editing), capable of handling a wide variety of
diverse text descriptions to guide the editing procedure. Specifically with
FICE, we augment the common GAN inversion process by including semantic,
pose-related, and image-level constraints when generating images. We leverage
the capabilities of the CLIP model to enforce the semantics, due to its
impressive image-text association capabilities. We furthermore propose a
latent-code regularization technique that provides the means to better control
the fidelity of the synthesized images. We validate FICE through rigorous
experiments on a combination of VITON images and Fashion-Gen text descriptions
and in comparison with several state-of-the-art text-conditioned image editing
approaches. Experimental results demonstrate FICE generates highly realistic
fashion images and leads to stronger editing performance than existing
competing approaches.
- Abstract(参考訳): ファッションイメージ編集は、選択したアパレルを与えられた入力画像に組み込むという、難しいコンピュータビジョンタスクを表す。
既存のほとんどのテクニックは、仮想トライオン(Virtual Try-On)メソッドと呼ばれ、まず所望のアパレルのサンプルイメージを選択し、対象の人に衣服を転送することで、このタスクに対処する。
逆に,本論文では,ファッション画像をテキスト記述で編集することを検討する。
このようなアプローチは、例ベースの仮想試行技術よりもいくつかの利点がある。
(i)対象のファッションアイテムのイメージを必要とせず、
(ii)自然言語を用いて多種多様な視覚概念を表現できる。
言語入力を扱う既存の画像編集手法は、リッチ属性アノテーションによるトレーニングセットの要求や、単純なテキスト記述しか扱えないことによる制約が強い。
我々は,fice (fashion image clip editing) と呼ばれる新しいテキスト条件付き編集モデルを提案することで,これらの制約に対処する。
特にficeでは,画像生成時に意味的,ポーズ関連,画像レベルの制約を含めることで,gan反転処理を増強する。
我々は,その印象的な画像テキスト関連機能により,クリップモデルの機能を活用してセマンティクスを強制する。
さらに,合成画像の忠実度をよりよく制御する手段を提供する潜在コード正規化手法を提案する。
ビトン画像とファッション世代のテキスト記述の組み合わせに関する厳密な実験と,最先端のテキストコンディション画像編集手法との比較により,ficeの有効性を検証する。
実験により、FICEは、非常にリアルなファッション画像を生成し、既存の競合するアプローチよりも強力な編集性能をもたらすことが示された。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - TD-GEM: Text-Driven Garment Editing Mapper [15.121103742607383]
ファッションアイテムをアンタングルに編集するためのテキスト駆動型ガーメント編集マッパー(TD-GEM)を提案する。
次に、最適化に基づくContrastive Language- Image Pre-trainingを用いて、ファッションイメージの潜在表現をガイドする。
我々のTD-GEMは、テキストプロンプトで表現された対象属性に従って、正確に画像を操作します。
論文 参考訳(メタデータ) (2023-05-29T14:31:54Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。