論文の概要: StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human
- arxiv url: http://arxiv.org/abs/2305.16759v2
- Date: Tue, 25 Jul 2023 08:39:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 20:41:24.695340
- Title: StyleHumanCLIP: Text-guided Garment Manipulation for StyleGAN-Human
- Title(参考訳): StyleHumanCLIP:StyleGAN-Human用テキストガイドガーメントマニピュレーション
- Authors: Takato Yoshikawa, Yuki Endo, Yoshihiro Kanamori
- Abstract要約: 本論文は、フルボディの人体画像における衣服編集のためのスタイルGANのテキスト誘導制御に取り組む。
本稿では,注意に基づく潜在コードマッパーを用いたテキスト誘導フルボディ画像合成のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.812718493682453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles text-guided control of StyleGAN for editing garments in
full-body human images. Existing StyleGAN-based methods suffer from handling
the rich diversity of garments and body shapes and poses. We propose a
framework for text-guided full-body human image synthesis via an
attention-based latent code mapper, which enables more disentangled control of
StyleGAN than existing mappers. Our latent code mapper adopts an attention
mechanism that adaptively manipulates individual latent codes on different
StyleGAN layers under text guidance. In addition, we introduce feature-space
masking at inference time to avoid unwanted changes caused by text inputs. Our
quantitative and qualitative evaluations reveal that our method can control
generated images more faithfully to given texts than existing methods.
- Abstract(参考訳): 本稿では,フルボディの人体画像における衣服編集のためのスタイルGANのテキスト誘導制御に取り組む。
既存のスタイルガンベースの方法は、衣服や体型やポーズの多様性に苦しむ。
本稿では,既存のマッパーよりもスタイルガンの非絡み合った制御を可能にする,注意に基づく潜在コードマッパーを用いた,テキスト誘導全身画像合成のためのフレームワークを提案する。
我々の潜在コードマッパーは、テキストガイダンスの下で異なるスタイルGAN層上の個々の潜時コードを適応的に操作するアテンションメカニズムを採用している。
また,テキスト入力による不要な変化を避けるため,推定時に特徴空間マスキングを導入する。
定量的および定性的な評価により,既存の手法よりもテキストに忠実に生成した画像を制御できることが明らかになった。
関連論文リスト
- FAGStyle: Feature Augmentation on Geodesic Surface for Zero-shot Text-guided Diffusion Image Style Transfer [2.3293561091456283]
イメージスタイル転送の目標は、オリジナルのコンテンツを維持しながら、スタイル参照によってガイドされたイメージをレンダリングすることである。
ゼロショットテキスト誘導拡散画像スタイル転送方式であるFAGStyleを紹介する。
提案手法は,スライディングウィンドウクロップを組み込むことにより,パッチ間の情報インタラクションを向上させる。
論文 参考訳(メタデータ) (2024-08-20T04:20:11Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - MSSRNet: Manipulating Sequential Style Representation for Unsupervised
Text Style Transfer [82.37710853235535]
教師なしのテキストスタイル転送タスクは、メインのコンテンツを保持しながらテキストをターゲットのスタイルに書き換えることを目的としている。
従来の方法では、固定サイズのベクトルを使ってテキストスタイルを規制するが、個々のトークンのスタイル強度を正確に伝達することは困難である。
提案手法は,テキスト中の各トークンに個々のスタイルベクトルを割り当てることでこの問題に対処する。
論文 参考訳(メタデータ) (2023-06-12T13:12:29Z) - TD-GEM: Text-Driven Garment Editing Mapper [15.121103742607383]
ファッションアイテムをアンタングルに編集するためのテキスト駆動型ガーメント編集マッパー(TD-GEM)を提案する。
次に、最適化に基づくContrastive Language- Image Pre-trainingを用いて、ファッションイメージの潜在表現をガイドする。
我々のTD-GEMは、テキストプロンプトで表現された対象属性に従って、正確に画像を操作します。
論文 参考訳(メタデータ) (2023-05-29T14:31:54Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - StyleT2F: Generating Human Faces from Textual Description Using
StyleGAN2 [0.0]
StyleT2Fは、テキストを使用してStyleGAN2の出力を制御する方法である。
提案手法は,必要な特徴を正しくキャプチャし,入力テキストと出力画像との整合性を示す。
論文 参考訳(メタデータ) (2022-04-17T04:51:30Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Handwriting Transformers [98.3964093654716]
本稿では,スタイルコンテンツの絡み合いとグローバルおよびローカルライティングスタイルパターンの両方を学ぶことを目的とした,トランスフォーマティブベースの手書きテキスト画像生成手法であるhwtを提案する。
提案したHWTは, 自己認識機構を用いて, スタイルの例における長短距離関係をキャプチャする。
提案するHWTは,現実的な手書きテキスト画像を生成する。
論文 参考訳(メタデータ) (2021-04-08T17:59:43Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。