Fugu-MT 論文翻訳(概要): AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion

論文の概要: AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion

arxiv url: http://arxiv.org/abs/2408.11553v2
Date: Fri, 23 Aug 2024 09:03:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-26 10:23:46.401270
Title: AnyDesign: Versatile Area Fashion Editing via Mask-Free Diffusion
Title（参考訳）: AnyDesign: マスクフリー拡散によるVersatile Area FashionEditing
Authors: Yunfang Niu, Lingxiang Wu, Dong Yi, Jie Peng, Ning Jiang, Haiying Wu, Jinqiao Wang,
Abstract要約: ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。現在の手法ではセグメンタやキーポイント抽出器のような補助的なツールが必要であり、柔軟性と統一されたフレームワークが欠如している。本稿では,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。
参考スコア（独自算出の注目度）: 25.61572702219732
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Fashion image editing aims to modify a person's appearance based on a given instruction. Existing methods require auxiliary tools like segmenters and keypoint extractors, lacking a flexible and unified framework. Moreover, these methods are limited in the variety of clothing types they can handle, as most datasets focus on people in clean backgrounds and only include generic garments such as tops, pants, and dresses. These limitations restrict their applicability in real-world scenarios. In this paper, we first extend an existing dataset for human generation to include a wider range of apparel and more complex backgrounds. This extended dataset features people wearing diverse items such as tops, pants, dresses, skirts, headwear, scarves, shoes, socks, and bags. Additionally, we propose AnyDesign, a diffusion-based method that enables mask-free editing on versatile areas. Users can simply input a human image along with a corresponding prompt in either text or image format. Our approach incorporates Fashion DiT, equipped with a Fashion-Guidance Attention (FGA) module designed to fuse explicit apparel types and CLIP-encoded apparel features. Both Qualitative and quantitative experiments demonstrate that our method delivers high-quality fashion editing and outperforms contemporary text-guided fashion editing methods.
Abstract（参考訳）: ファッション画像編集は、与えられた指示に基づいて人物の外観を変更することを目的としている。既存の方法はセグメンタやキーポイント抽出器のような補助的なツールを必要とし、柔軟性と統一されたフレームワークを欠いている。さらに、これらの手法は、多くのデータセットがクリーンな背景の人々に焦点を当てており、トップ、パンツ、ドレスなどの一般的な衣服のみを含むため、扱える服の種類に制限されている。これらの制限は、現実世界のシナリオにおける適用性を制限します。本稿では、まず、人間生成のための既存のデータセットを拡張し、より広い範囲のアパレルとより複雑な背景を含むようにする。この拡張データセットでは、トップ、ズボン、ドレス、スカート、ヘッドウェア、スカーフ、靴、靴下、バッグなどのさまざまなアイテムを身に着けている。さらに,多目的領域におけるマスフリー編集を可能にする拡散法であるAnyDesignを提案する。ユーザは、テキストまたは画像フォーマットで、対応するプロンプトとともに、人間のイメージを入力できる。提案手法は,Fashion-Guidance Attention (FGA)モジュールを備えたFashion DiTを取り入れ,明示的なアパレルタイプとCLIP符号化アパレル機能を融合させる。質的,定量的な両実験により,本手法は高品質なファッション編集を実現し,現代テキスト誘導ファッション編集方法より優れることを示した。

関連論文リスト

Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation [36.66066619847558]
ファッション業界は、顧客エクスペリエンスを高めるためにAIテクノロジーをますます採用している。 Fashion-RAGは、マルチモーダルなファッション画像編集に適した検索拡張型生成手法を導入するための最初の試みである。
論文参考訳（メタデータ） (2025-04-18T18:02:33Z)
PromptDresser: Improving the Quality and Controllability of Virtual Try-On via Generative Textual Prompt and Prompt-aware Mask [35.052909478338115]
本稿では,提供される衣服画像に基づいて衣料品を変更するテキスト編集可能な仮想試着タスクに取り組む。テキスト編集可能な仮想試行において、(i)ペア化された人着データのためのリッチテキスト記述を設計してモデルを訓練すること、(ii)既存の人の衣服のテクスト情報が新しい衣服の発生を妨害する紛争に対処すること、(iii)テキスト記述に沿った塗装マスクを適応的に調整すること、の3つの重要な側面が存在する。本手法では,個人と衣服の画像の詳細な記述を個別に生成するために,コンテキスト内学習によるLMMを利用する。
論文参考訳（メタデータ） (2024-12-22T11:38:04Z)
MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文参考訳（メタデータ） (2024-05-01T11:04:22Z)
Lost Your Style? Navigating with Semantic-Level Approach for Text-to-Outfit Retrieval [2.07180164747172]
ファッションレコメンデーションの基盤となるアプローチとして,テキスト・ツー・アウトフィット検索タスクを導入する。我々のモデルは3つのセマンティックレベル、スタイル、服装で考案され、各レベルがデータを段階的に集約し、一貫性のある服装勧告を形成する。メリーランド・ポリボアとポリボア・アウトフィットのデータセットを用いて,本手法はテキストビデオ検索タスクにおける最先端モデルよりも有意に優れていた。
論文参考訳（メタデータ） (2023-11-03T07:23:21Z)
Fashion Matrix: Editing Photos by Just Talking [66.83502497764698]
我々は、写真編集専用のFashion Matrixと呼ばれる階層型AIシステムを開発した。 Fashion MatrixはLarge Language Models (LLM) を基礎的なサポートとして採用し、ユーザとの反復的なインタラクションに従事している。 Visual Foundation Modelsは、テキストプロンプトとマスクから編集画像を生成するために活用され、ファッション編集プロセスの自動化を容易にする。
論文参考訳（メタデータ） (2023-07-25T04:06:25Z)
FashionTex: Controllable Virtual Try-on with Text and Texture [29.7855591607239]
テキストとテクスチャの両方の利点を多段階のファッション操作に組み合わせたマルチモーダル・インタラクティブ・セッティングを提案する。 FashionTexフレームワークは、アノテーション付きのペアトレーニングデータなしで、布の種類や局所的なテクスチャパターンを意味的に制御することができる。
論文参考訳（メタデータ） (2023-05-08T04:10:36Z)
Multimodal Garment Designer: Human-Centric Latent Diffusion Models for Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文参考訳（メタデータ） (2023-04-04T18:03:04Z)
FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。 FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文参考訳（メタデータ） (2023-01-05T15:33:23Z)
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。 3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文参考訳（メタデータ） (2022-10-26T21:01:19Z)
Arbitrary Virtual Try-On Network: Characteristics Preservation and Trade-off between Body and Clothing [85.74977256940855]
本報告では,オールタイプの衣料品を対象としたArbitrary Virtual Try-On Network (AVTON)を提案する。 AVTONは、ターゲット服と参照者の特性を保存・交換することで、現実的な試行画像を合成することができる。提案手法は,最先端の仮想試行法と比較して性能が向上する。
論文参考訳（メタデータ） (2021-11-24T08:59:56Z)
SMPLicit: Topology-aware Generative Model for Clothed People [65.84665248796615]
SMPLicitは、身体のポーズ、形状、衣服の形状を共同で表現する新しい生成モデルである。実験では,3dスキャンの装着や,服装者の画像の3d再構成にsmplicitが容易に利用できることを示す。
論文参考訳（メタデータ） (2021-03-11T18:57:03Z)
Learning Diverse Fashion Collocation by Neural Graph Filtering [78.9188246136867]
本稿では,グラフニューラルネットワークを用いて,フレキシブルなファッションアイテムセットをモデル化する新しいファッションコロケーションフレームワークであるNeural Graph Filteringを提案する。エッジベクトルに対称演算を適用することにより、このフレームワークは様々な入力/出力を許容し、それらの順序に不変である。提案手法を,Polyvoreデータセット,Polyvore-Dデータセット,Amazon Fashionデータセットの3つの一般的なベンチマークで評価した。
論文参考訳（メタデータ） (2020-03-11T16:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。