Fugu-MT 論文翻訳(概要): Magic Clothing: Controllable Garment-Driven Image Synthesis

論文の概要: Magic Clothing: Controllable Garment-Driven Image Synthesis

arxiv url: http://arxiv.org/abs/2404.09512v1
Date: Mon, 15 Apr 2024 07:15:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 13:09:46.135715
Title: Magic Clothing: Controllable Garment-Driven Image Synthesis
Title（参考訳）: Magic Clothing: 制御可能なガーメント駆動画像合成
Authors: Weifeng Chen, Tao Gu, Yuhao Xu, Chengcai Chen,
Abstract要約: 我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目指して、画像制御性が最も重要な問題である。衣料品の特徴を捉えるために衣服抽出装置を導入し, 自覚融合を用いて予め訓練したLCDに組み込む。
参考スコア（独自算出の注目度）: 7.46772222515689
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose Magic Clothing, a latent diffusion model (LDM)-based network architecture for an unexplored garment-driven image synthesis task. Aiming at generating customized characters wearing the target garments with diverse text prompts, the image controllability is the most critical issue, i.e., to preserve the garment details and maintain faithfulness to the text prompts. To this end, we introduce a garment extractor to capture the detailed garment features, and employ self-attention fusion to incorporate them into the pretrained LDMs, ensuring that the garment details remain unchanged on the target character. Then, we leverage the joint classifier-free guidance to balance the control of garment features and text prompts over the generated results. Meanwhile, the proposed garment extractor is a plug-in module applicable to various finetuned LDMs, and it can be combined with other extensions like ControlNet and IP-Adapter to enhance the diversity and controllability of the generated characters. Furthermore, we design Matched-Points-LPIPS (MP-LPIPS), a robust metric for evaluating the consistency of the target image to the source garment. Extensive experiments demonstrate that our Magic Clothing achieves state-of-the-art results under various conditional controls for garment-driven image synthesis. Our source code is available at https://github.com/ShineChen1024/MagicClothing.
Abstract（参考訳）: 我々は,未探索の衣服駆動画像合成タスクのための潜在拡散モデル(LDM)に基づくネットワークアーキテクチャであるMagic Clothingを提案する。多様なテキストプロンプトを持つ対象の衣服を装着したカスタマイズされた文字を生成することを目的として、画像制御性は最も重要な問題であり、例えば、衣服の詳細を保存し、テキストプロンプトへの忠実性を維持することである。この目的のために, 被服の特徴を捉えた衣服抽出装置を導入し, 自己注意融合を用いて, 予め訓練したLCDに組み込むことにより, 被服の詳細が目標キャラクタに変化しないことを保証した。そして, 共同分類器フリーガイダンスを利用して, 生成した結果に対して, 衣服の特徴とテキストプロンプトのバランスをとる。一方,提案する衣料抽出器は様々な微調整 LDM に適用可能なプラグインモジュールであり,制御ネットやIP-Adapter といった他の拡張と組み合わせることで,生成した文字の多様性と制御性を高めることができる。さらに,対象画像と被写体との整合性を評価するための頑健な指標であるMatched-Points-LPIPS (MP-LPIPS) を設計した。広汎な実験により, 衣服駆動画像合成のための様々な条件制御の下で, 我々のマジック・クローチングが最先端の成果を達成できることが証明された。ソースコードはhttps://github.com/ShineChen1024/MagicClothing.comで公開されています。

関連論文リスト

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals [76.96387718150542]
テキスト強化Multi-category Virtual Try-Off(TEMU-VTOFF)を提案する。私たちのアーキテクチャは、画像、テキスト、マスクなどの複数のモードから衣料情報を受け取り、複数のカテゴリで機能するように設計されています。 VITON-HDおよびDress Codeデータセットの実験では、TEMU-VTOFFがVTOFFタスクに新たな最先端を設定していることが示されている。
論文参考訳（メタデータ） (2025-05-27T11:47:51Z)
Fine-Grained Controllable Apparel Showcase Image Generation via Garment-Centric Outpainting [39.50293003775675]
潜在拡散モデル(LDM)に基づく新しい衣服中心のアウトペイント(GCO)フレームワークを提案する。提案フレームワークは,テキストプロンプトと顔画像を用いて,所定の衣服を身に着けたファッションモデルをカスタマイズすることを目的としている。
論文参考訳（メタデータ） (2025-03-03T08:30:37Z)
ChatGarment: Garment Estimation, Generation and Editing via Large Language Models [79.46056192947924]
ChatGarmentは、大規模な視覚言語モデル(VLM)を活用して、3D衣服の見積もり、生成、編集を自動化する新しいアプローチである。ウィジェット内の画像やスケッチから縫製パターンを推定し、テキスト記述から生成し、ユーザー指示に基づいて衣服を編集することができる。
論文参考訳（メタデータ） (2024-12-23T18:59:28Z)
AnyDressing: Customizable Multi-Garment Virtual Dressing via Latent Diffusion Models [7.534556848810697]
衣服とパーソナライズされたテキストプロンプトの組み合わせで条件付き文字をカスタマイズする新しいAnyDressing法を提案する。 AnyDressingはGarmentsNetとDressingNetという2つの主要なネットワークで構成されており、それぞれが詳細な衣料品の特徴を抽出することを目的としている。衣服のきめ細かいテクスチャの詳細を改善するため,ガーメント強化テクスチャ学習戦略を導入する。
論文参考訳（メタデータ） (2024-12-05T13:16:47Z)
AIpparel: A Multimodal Foundation Model for Digital Garments [71.12933771326279]
縫製パターンの生成と編集のためのマルチモーダル基礎モデルであるAIpparelを紹介する。当社のモデルでは,12万以上のユニークな衣服をカスタマイズした大規模データセット上で,最先端の大規模マルチモーダルモデルを微調整する。本稿では,これらの複雑な縫製パターンを簡潔に符号化し,LLMが効率的に予測できる新しいトークン化手法を提案する。
論文参考訳（メタデータ） (2024-12-05T07:35:19Z)
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on [73.13242624924814]
Diffusion Transformer (DiT) を用いた高忠実度仮想試行用ガーメント知覚増強技術FitDiT 布地テクスチャ抽出装置を導入し, 布地や模様, テクスチャなどのリッチな細部を, よりよく捉えられるようにした。また,クロスカテゴリー試着中にマスク領域全体を埋める衣服の発生を防止し,衣料の正しい長さに適応する拡張緩和マスク戦略を採用した。
論文参考訳（メタデータ） (2024-11-15T11:02:23Z)
Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。 VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文参考訳（メタデータ） (2024-09-12T17:55:11Z)
Gaussian Garments: Reconstructing Simulation-Ready Clothing with Photorealistic Appearance from Multi-View Video [66.98046635045685]
マルチビュー映像からリアルなシミュレーション可能な衣服資産を再構築するための新しい手法を提案する。本手法は,3次元メッシュとガウステクスチャを組み合わせた衣服を表現し,その色と高周波表面の細部をエンコードする。この表現は、マルチビュービデオへの衣服のジオメトリの正確な登録を可能にし、照明効果からアルベドのテクスチャを遠ざけるのに役立つ。
論文参考訳（メタデータ） (2024-09-12T16:26:47Z)
Multi-Garment Customized Model Generation [3.1679243514285194]
マルチゲージカスタマイズモデル生成は、潜在拡散モデル(LDM)に基づく統合フレームワークである本フレームワークは,脱結合型マルチガーメント機能融合による複数衣服の条件生成を支援する。提案する衣料エンコーダは,他の拡張モジュールと組み合わせることができるプラグアンドプレイモジュールである。
論文参考訳（メタデータ） (2024-08-09T17:57:33Z)
IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。 IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文参考訳（メタデータ） (2024-07-17T16:26:30Z)
CLIP-Driven Cloth-Agnostic Feature Learning for Cloth-Changing Person Re-Identification [47.948622774810296]
衣服交換者再識別のためのCLIP-Driven Cloth-Agnostic Feature Learning (CCAF) という新しいフレームワークを提案する。 Invariant Feature Prompting (IFP) と Clothes Feature Minimization (CFM) の2つのモジュールがカスタム設計されている。提案したCCAFの有効性を実証し、いくつかのCC-ReIDベンチマークで新たな最先端性能を実現した。
論文参考訳（メタデータ） (2024-06-13T14:56:07Z)
StableGarment: Garment-Centric Generation via Stable Diffusion [29.5112874761836]
衣服中心(GC)生成タスクに対処するための統合フレームワークであるStableGarmentを紹介する。我々のソリューションは、付加的な自己注意層を備えたデノイングUNetのトレーニング可能なコピーである衣料エンコーダの開発である。専用のtry-on ControlNetを組み込むことで、StableGarmentは仮想try-onタスクを精度良く実行できる。
論文参考訳（メタデータ） (2024-03-16T03:05:07Z)
TD-GEM: Text-Driven Garment Editing Mapper [15.121103742607383]
ファッションアイテムをアンタングルに編集するためのテキスト駆動型ガーメント編集マッパー(TD-GEM)を提案する。次に、最適化に基づくContrastive Language- Image Pre-trainingを用いて、ファッションイメージの潜在表現をガイドする。我々のTD-GEMは、テキストプロンプトで表現された対象属性に従って、正確に画像を操作します。
論文参考訳（メタデータ） (2023-05-29T14:31:54Z)
Arbitrary Virtual Try-On Network: Characteristics Preservation and Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。 AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文参考訳（メタデータ） (2021-11-24T08:59:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。