論文の概要: Fashion130K: An E-commerce Fashion Dataset for Outfit Generation with Unified Multi-modal Condition
- arxiv url: http://arxiv.org/abs/2605.10127v2
- Date: Wed, 13 May 2026 05:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.852195
- Title: Fashion130K: An E-commerce Fashion Dataset for Outfit Generation with Unified Multi-modal Condition
- Title(参考訳): Fashion130K: 統一マルチモーダル条件によるアウトフィット生成のためのEコマースファッションデータセット
- Authors: Yu He, Ting Zhu, Yichun Liu, Lichen Ma, Xinyuan Shan, Jingling Fu, Yu Shi, Junshi Huang, Yan Li,
- Abstract要約: 我々はFashion130kという新しいeコマースデータセットを提案する。
我々は、テキストと視覚的プロンプトを協調して生成モデルに組み込むために、統一マルチモーダル条件(UMC)を用いたフレームワークを設計する。
実世界のアプリケーションとベンチマークの実験は、視覚的一貫性におけるUTCの有効性を実証している。
- 参考スコア(独自算出の注目度): 17.99064406157974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research work on fashion outfit generation focuses on promoting visual consistency of garments by leveraging key information from reference image and text prompt. However, the potential of outfit generation remains underexplored, requiring comprehensive e-commercial dataset and elaborative utilization of multi-modal condition. In this paper, we propose a brand-new e-commerce dataset, named Fashion130k, with various occasions, models, and garment types. For the consistent generation of garment, we design a framework with Unified Multi-modal Condition (UMC) to align and integrate the text and visual prompts into generation model. Specifically, we explore an embedding refiner to extract the unified embeddings of multi-modal prompts, within which a Fusion Transformer is proposed to align the multi-modal embeddings by adjusting the modality gap between text and image. Based on unified embeddings, the attention in generation model is redesigned to emphasis the correlations between prompts and noise image, inducing that the noise image can select the pivotal tokens of prompts for consistent outfit generation. Our dataset and proposed framework offer a general and nuanced exploration of multi-modal prompts for generation models. Extensive experiments on real-world applications and benchmark demonstrate the effectiveness of UMC in visual consistency, achieving promising result than that of SoTA methods.
- Abstract(参考訳): ファッション衣料品生成に関する最近の研究は、参考画像やテキストプロンプトからの重要な情報を活用することにより、衣服の視覚的整合性を促進することに焦点を当てている。
しかし、衣料品生成の可能性はまだ未解明であり、包括的な電子商業データセットとマルチモーダル条件の実験的利用が必要である。
本稿では,新たなeコマースデータセットであるFashion130kを提案する。
着物の一貫した生成のために、テキストと視覚的プロンプトを協調して生成モデルに統合する統一マルチモーダル条件(UMC)を用いたフレームワークを設計する。
具体的には,マルチモーダルプロンプトの統一埋め込みを抽出する埋め込み精細器を探索し,テキストと画像間のモダリティギャップを調整して多モーダル埋め込みを調整するフュージョントランスフォーマーを提案する。
統合された埋め込みに基づいて、ノイズ画像とプロンプトの相関性を強調するために、生成モデルの注意を再設計し、一貫した構成生成のために、ノイズ画像がプロンプトのピボットトークンを選択できるようにする。
我々のデータセットと提案したフレームワークは、生成モデルのためのマルチモーダルプロンプトの汎用的でニュアンスな探索を提供する。
実世界のアプリケーションとベンチマークに関する大規模な実験は、視覚的一貫性におけるUTCの有効性を実証し、SoTA法よりも有望な結果を得た。
関連論文リスト
- POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch [84.73366911912512]
エージェント・シーディング(Agenic Seeding)は,エージェント行動の抽出に必要な前駆体を織り込むための専用フェーズである。
本稿では、最近の対話を高忠実に保ちながら、歴史的コンテキストをレンダリングを介して視覚空間に折り畳みながら、適応的履歴認識圧縮方式であるV-Foldを提案する。
我々は,最新のマルチモーダルエージェントサーチモデルであるPOINTS-Seeker-8Bを開発した。
論文 参考訳(メタデータ) (2026-04-15T16:09:37Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation [36.66066619847558]
ファッション業界は、顧客エクスペリエンスを高めるためにAIテクノロジーをますます採用している。
Fashion-RAGは、マルチモーダルなファッション画像編集に適した検索拡張型生成手法を導入するための最初の試みである。
論文 参考訳(メタデータ) (2025-04-18T18:02:33Z) - UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation [29.489516715874306]
ファッション分野におけるマルチモーダル生成と検索タスクの課題を同時に解決する統合フレームワークUniFashionを提案する。
我々のモデルは、様々なファッションタスクにおいて、過去のシングルタスク・オブ・ザ・アーティファクトモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-21T03:17:20Z) - Multi-Garment Customized Model Generation [3.1679243514285194]
マルチゲージカスタマイズモデル生成は、潜在拡散モデル(LDM)に基づく統合フレームワークである
本フレームワークは,脱結合型マルチガーメント機能融合による複数衣服の条件生成を支援する。
提案する衣料エンコーダは,他の拡張モジュールと組み合わせることができるプラグアンドプレイモジュールである。
論文 参考訳(メタデータ) (2024-08-09T17:57:33Z) - MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。