論文の概要: Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2504.14011v1
- Date: Fri, 18 Apr 2025 18:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:53:52.99568
- Title: Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation
- Title(参考訳): Fashion-RAG:Retrieval-Augmented Generationによるマルチモーダルファッション画像編集
- Authors: Fulvio Sanguigni, Davide Morelli, Marcella Cornia, Rita Cucchiara,
- Abstract要約: ファッション業界は、顧客エクスペリエンスを高めるためにAIテクノロジーをますます採用している。
Fashion-RAGは、マルチモーダルなファッション画像編集に適した検索拡張型生成手法を導入するための最初の試みである。
- 参考スコア(独自算出の注目度): 36.66066619847558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the fashion industry has increasingly adopted AI technologies to enhance customer experience, driven by the proliferation of e-commerce platforms and virtual applications. Among the various tasks, virtual try-on and multimodal fashion image editing -- which utilizes diverse input modalities such as text, garment sketches, and body poses -- have become a key area of research. Diffusion models have emerged as a leading approach for such generative tasks, offering superior image quality and diversity. However, most existing virtual try-on methods rely on having a specific garment input, which is often impractical in real-world scenarios where users may only provide textual specifications. To address this limitation, in this work we introduce Fashion Retrieval-Augmented Generation (Fashion-RAG), a novel method that enables the customization of fashion items based on user preferences provided in textual form. Our approach retrieves multiple garments that match the input specifications and generates a personalized image by incorporating attributes from the retrieved items. To achieve this, we employ textual inversion techniques, where retrieved garment images are projected into the textual embedding space of the Stable Diffusion text encoder, allowing seamless integration of retrieved elements into the generative process. Experimental results on the Dress Code dataset demonstrate that Fashion-RAG outperforms existing methods both qualitatively and quantitatively, effectively capturing fine-grained visual details from retrieved garments. To the best of our knowledge, this is the first work to introduce a retrieval-augmented generation approach specifically tailored for multimodal fashion image editing.
- Abstract(参考訳): 近年、ファッション業界は、Eコマースプラットフォームや仮想アプリケーションの普及によって、顧客エクスペリエンスを向上させるために、AI技術の採用が増えている。
様々なタスクの中で、テキスト、スケッチ、ボディーポーズといった多様な入力モダリティを利用する仮想試行とマルチモーダルなファッション画像編集が研究の重要領域となっている。
拡散モデルはこのような生成タスクの主要なアプローチとして現れ、優れた画質と多様性を提供する。
しかし、既存の仮想試行法の多くは、特定の衣服入力を持つことに依存しており、ユーザーがテキスト仕様しか提供できない現実のシナリオでは実用的ではないことが多い。
この制限に対処するため,本研究では,テキスト形式で提供されるユーザの好みに基づいたファッションアイテムのカスタマイズを可能にする新しい手法であるFashion Retrieval-Augmented Generation (Fashion-RAG)を紹介する。
提案手法は,入力仕様に適合する複数の衣服を検索し,検索した商品の属性を取り入れたパーソナライズされた画像を生成する。
これを実現するために,検索した衣服画像が安定拡散テキストエンコーダのテキスト埋め込み空間に投影され,検索した要素を生成プロセスにシームレスに統合する。
Dress Codeデータセットの実験結果によると、Fashion-RAGは定性的かつ定量的に既存の手法より優れており、取得した衣服の細かな視覚的詳細を効果的に捉えている。
我々の知る限りでは、マルチモーダルなファッション画像編集に特化して、検索強化された生成アプローチを導入するのは、これが初めてである。
関連論文リスト
- ENCLIP: Ensembling and Clustering-Based Contrastive Language-Image Pretraining for Fashion Multimodal Search with Limited Data and Low-Quality Images [1.534667887016089]
本稿では,CLIP(Contrastive Language- Image Pretraining)モデルの性能向上を目的とした,ENCLIPと呼ばれる革新的なアプローチを提案する。
これは、限られたデータ可用性と低品質の画像によって引き起こされる課題に対処することに焦点を当てている。
論文 参考訳(メタデータ) (2024-11-25T05:15:38Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - The Chosen One: Consistent Characters in Text-to-Image Diffusion Models [71.15152184631951]
そこで本研究では,テキストプロンプトのみを入力として,一貫した文字生成を完全自動化する手法を提案する。
本手法は, 基本手法と比較して, 即時アライメントと同一性整合性のバランスが良くなる。
論文 参考訳(メタデータ) (2023-11-16T18:59:51Z) - FashionTex: Controllable Virtual Try-on with Text and Texture [29.7855591607239]
テキストとテクスチャの両方の利点を多段階のファッション操作に組み合わせたマルチモーダル・インタラクティブ・セッティングを提案する。
FashionTexフレームワークは、アノテーション付きのペアトレーニングデータなしで、布の種類や局所的なテクスチャパターンを意味的に制御することができる。
論文 参考訳(メタデータ) (2023-05-08T04:10:36Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Multimodal Garment Designer: Human-Centric Latent Diffusion Models for
Fashion Image Editing [40.70752781891058]
本稿では,人間中心のファッション画像の生成を導くマルチモーダルなファッション画像編集の課題を提案する。
我々は遅延拡散モデルに基づく新しいアーキテクチャを提案することでこの問題に対処する。
タスクに適した既存のデータセットがないので、既存の2つのファッションデータセットも拡張します。
論文 参考訳(メタデータ) (2023-04-04T18:03:04Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Conversational Fashion Image Retrieval via Multiturn Natural Language
Feedback [36.623221002330226]
マルチターン自然言語による対話型ファッション画像検索の課題について検討する。
本稿では,対話型ファッション画像検索を多ターン自然言語フィードバックテキストで効果的に処理できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T06:34:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。