論文の概要: AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion
- arxiv url: http://arxiv.org/abs/2408.11553v3
- Date: Thu, 17 Oct 2024 08:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:11:36.153603
- Title: AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion
- Title(参考訳): AnyDesign: マスクフリー拡散によるVersatile Area FashionEditing
- Authors: Yunfang Niu, Lingxiang Wu, Dong Yi, Jie Peng, Ning Jiang, Haiying Wu, Jinqiao Wang,
- Abstract要約: ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。
現在の手法ではセグメンタやキーポイント抽出器のような補助的なツールが必要であり、柔軟性と統一されたフレームワークが欠如している。
本稿では,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。
- 参考スコア(独自算出の注目度): 25.61572702219732
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fashion image editing aims to modify a person's appearance based on a given instruction. Existing methods require auxiliary tools like segmenters and keypoint extractors, lacking a flexible and unified framework. Moreover, these methods are limited in the variety of clothing types they can handle, as most datasets focus on people in clean backgrounds and only include generic garments such as tops, pants, and dresses. These limitations restrict their applicability in real-world scenarios. In this paper, we first extend an existing dataset for human generation to include a wider range of apparel and more complex backgrounds. This extended dataset features people wearing diverse items such as tops, pants, dresses, skirts, headwear, scarves, shoes, socks, and bags. Additionally, we propose AnyDesign, a diffusion-based method that enables mask-free editing on versatile areas. Users can simply input a human image along with a corresponding prompt in either text or image format. Our approach incorporates Fashion DiT, equipped with a Fashion-Guidance Attention (FGA) module designed to fuse explicit apparel types and CLIP-encoded apparel features. Both Qualitative and quantitative experiments demonstrate that our method delivers high-quality fashion editing and outperforms contemporary text-guided fashion editing methods.
- Abstract(参考訳): ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。
既存の方法はセグメンタやキーポイント抽出器のような補助的なツールを必要とし、柔軟性と統一されたフレームワークを欠いている。
さらに、これらの手法は、多くのデータセットがクリーンな背景の人々に焦点を当てており、トップ、パンツ、ドレスなどの一般的な衣服のみを含むため、扱える服の種類に制限されている。
これらの制限は、現実世界のシナリオにおける適用性を制限します。
本稿では、まず、人間生成のための既存のデータセットを拡張し、より広い範囲のアパレルとより複雑な背景を含むようにする。
この拡張データセットでは、トップ、ズボン、ドレス、スカート、ヘッドウェア、スカーフ、靴、靴下、バッグなどのさまざまなアイテムを身に着けている。
さらに,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。
ユーザは、テキストまたは画像フォーマットで、対応するプロンプトとともに、人間のイメージを入力できる。
提案手法は,Fashion-Guidance Attention (FGA)モジュールを備えたFashion DiTを取り入れ,明示的なアパレルタイプとCLIP符号化アパレル機能を融合させる。
質的,定量的な両実験により,本手法は高品質なファッション編集を実現し,現代テキスト誘導ファッション編集方法より優れることを示した。
関連論文リスト
- MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - Lost Your Style? Navigating with Semantic-Level Approach for
Text-to-Outfit Retrieval [2.07180164747172]
ファッションレコメンデーションの基盤となるアプローチとして,テキスト・ツー・アウトフィット検索タスクを導入する。
我々のモデルは3つのセマンティックレベル、スタイル、服装で考案され、各レベルがデータを段階的に集約し、一貫性のある服装勧告を形成する。
メリーランド・ポリボアとポリボア・アウトフィットのデータセットを用いて,本手法はテキストビデオ検索タスクにおける最先端モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-11-03T07:23:21Z) - Fashion Matrix: Editing Photos by Just Talking [66.83502497764698]
我々は、写真編集専用のFashion Matrixと呼ばれる階層型AIシステムを開発した。
Fashion MatrixはLarge Language Models (LLM) を基礎的なサポートとして採用し、ユーザとの反復的なインタラクションに従事している。
Visual Foundation Modelsは、テキストプロンプトとマスクから編集画像を生成するために活用され、ファッション編集プロセスの自動化を容易にする。
論文 参考訳(メタデータ) (2023-07-25T04:06:25Z) - FashionTex: Controllable Virtual Try-on with Text and Texture [29.7855591607239]
テキストとテクスチャの両方の利点を多段階のファッション操作に組み合わせたマルチモーダル・インタラクティブ・セッティングを提案する。
FashionTexフレームワークは、アノテーション付きのペアトレーニングデータなしで、布の種類や局所的なテクスチャパターンを意味的に制御することができる。
論文 参考訳(メタデータ) (2023-05-08T04:10:36Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Arbitrary Virtual Try-On Network: Characteristics Preservation and
Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。
AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。
提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文 参考訳(メタデータ) (2021-11-24T08:59:56Z) - SMPLicit: Topology-aware Generative Model for Clothed People [65.84665248796615]
SMPLicitは、身体のポーズ、形状、衣服の形状を共同で表現する新しい生成モデルである。
実験では,3dスキャンの装着や,服装者の画像の3d再構成にsmplicitが容易に利用できることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:57:03Z) - Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。
エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。
提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文 参考訳(メタデータ) (2020-03-11T16:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。