論文の概要: PromptDresser: Improving the Quality and Controllability of Virtual Try-On via Generative Textual Prompt and Prompt-aware Mask
- arxiv url: http://arxiv.org/abs/2412.16978v1
- Date: Sun, 22 Dec 2024 11:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:22.337193
- Title: PromptDresser: Improving the Quality and Controllability of Virtual Try-On via Generative Textual Prompt and Prompt-aware Mask
- Title(参考訳): PromptDresser: 生成テキストプロンプトとPrompt対応マスクによる仮想トライオンの品質と制御性の向上
- Authors: Jeongho Kim, Hoiyeong Jin, Sunghyun Park, Jaegul Choo,
- Abstract要約: 本稿では,提供される衣服画像に基づいて衣料品を変更するテキスト編集可能な仮想試着タスクに取り組む。
テキスト編集可能な仮想試行において、(i)ペア化された人着データのためのリッチテキスト記述を設計してモデルを訓練すること、(ii)既存の人の衣服のテクスト情報が新しい衣服の発生を妨害する紛争に対処すること、(iii)テキスト記述に沿った塗装マスクを適応的に調整すること、の3つの重要な側面が存在する。
本手法では,個人と衣服の画像の詳細な記述を個別に生成するために,コンテキスト内学習によるLMMを利用する。
- 参考スコア(独自算出の注目度): 35.052909478338115
- License:
- Abstract: Recent virtual try-on approaches have advanced by fine-tuning the pre-trained text-to-image diffusion models to leverage their powerful generative ability. However, the use of text prompts in virtual try-on is still underexplored. This paper tackles a text-editable virtual try-on task that changes the clothing item based on the provided clothing image while editing the wearing style (e.g., tucking style, fit) according to the text descriptions. In the text-editable virtual try-on, three key aspects exist: (i) designing rich text descriptions for paired person-clothing data to train the model, (ii) addressing the conflicts where textual information of the existing person's clothing interferes the generation of the new clothing, and (iii) adaptively adjust the inpainting mask aligned with the text descriptions, ensuring proper editing areas while preserving the original person's appearance irrelevant to the new clothing. To address these aspects, we propose PromptDresser, a text-editable virtual try-on model that leverages large multimodal model (LMM) assistance to enable high-quality and versatile manipulation based on generative text prompts. Our approach utilizes LMMs via in-context learning to generate detailed text descriptions for person and clothing images independently, including pose details and editing attributes using minimal human cost. Moreover, to ensure the editing areas, we adjust the inpainting mask depending on the text prompts adaptively. We found that our approach, utilizing detailed text prompts, not only enhances text editability but also effectively conveys clothing details that are difficult to capture through images alone, thereby enhancing image quality. Our code is available at https://github.com/rlawjdghek/PromptDresser.
- Abstract(参考訳): 最近の仮想試行法は、その強力な生成能力を活用するために、事前訓練されたテキスト-画像拡散モデルを微調整することで進歩している。
しかし、仮想トライオンにおけるテキストプロンプトの使用は、まだ未調査である。
本稿では,テキスト記述に従って着用スタイル(例えば,タッキングスタイル,フィット)を編集しながら,提供される衣服画像に基づいて衣料品を変更する,テキスト編集可能な仮想試着タスクに取り組む。
テキスト編集可能な仮想試行では、3つの重要な側面が存在する。
一 モデルを訓練するために、一対の人着データのためのリッチテキスト記述を設計すること。
二 既存の者の衣服のテクスト情報が新着の発生を妨害する紛争に対処すること。
三 テクストの記述に沿う塗布マスクを適応的に調整し、原人の外観を新着によらず保ちつつ、適切な編集領域を確保すること。
これらの課題に対処するため,テキスト編集可能な仮想試行モデルであるPromptDresserを提案する。
提案手法では,LMMを用いて個人・衣服画像の詳細なテキスト記述を個別に生成し,人件費を最小限に抑えることで,ポーズの詳細や属性の編集を行う。
さらに、編集領域を確保するため、テキストのプロンプトに応じて塗装マスクを適応的に調整する。
提案手法は, 詳細なテキストプロンプトを利用して, テキスト編集性を高めるだけでなく, 画像のみをキャプチャし難い衣服の細部を効果的に伝達し, 画質を向上させる。
私たちのコードはhttps://github.com/rlawjdghek/PromptDresser.comで利用可能です。
関連論文リスト
- Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。