論文の概要: MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation
- arxiv url: http://arxiv.org/abs/2405.00448v2
- Date: Tue, 28 May 2024 07:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:39:49.536592
- Title: MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation
- Title(参考訳): MMTryon:高品質ファッション生成のためのマルチモードマルチ参照制御
- Authors: Xujie Zhang, Ente Lin, Xiu Li, Yuxuan Luo, Michael Kampffmeyer, Xin Dong, Xiaodan Liang,
- Abstract要約: MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
- 参考スコア(独自算出の注目度): 70.83668869857665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces MMTryon, a multi-modal multi-reference VIrtual Try-ON (VITON) framework, which can generate high-quality compositional try-on results by taking a text instruction and multiple garment images as inputs. Our MMTryon addresses three problems overlooked in prior literature: 1) Support of multiple try-on items. Existing methods are commonly designed for single-item try-on tasks (e.g., upper/lower garments, dresses). 2)Specification of dressing style. Existing methods are unable to customize dressing styles based on instructions (e.g., zipped/unzipped, tuck-in/tuck-out, etc.) 3) Segmentation Dependency. They further heavily rely on category-specific segmentation models to identify the replacement regions, with segmentation errors directly leading to significant artifacts in the try-on results. To address the first two issues, our MMTryon introduces a novel multi-modality and multi-reference attention mechanism to combine the garment information from reference images and dressing-style information from text instructions. Besides, to remove the segmentation dependency, MMTryon uses a parsing-free garment encoder and leverages a novel scalable data generation pipeline to convert existing VITON datasets to a form that allows MMTryon to be trained without requiring any explicit segmentation. Extensive experiments on high-resolution benchmarks and in-the-wild test sets demonstrate MMTryon's superiority over existing SOTA methods both qualitatively and quantitatively. MMTryon's impressive performance on multi-item and style-controllable virtual try-on scenarios and its ability to try on any outfit in a large variety of scenarios from any source image, opens up a new avenue for future investigation in the fashion community.
- Abstract(参考訳): 本稿では,テキストインストラクションと複数の衣料品イメージを入力として,高品質な合成試行結果を生成するマルチモーダルマルチ参照VITONフレームワークであるMMTryonを紹介する。
MMTryonは,先行文献で見落とされた3つの問題に対処する。
既存の方法は通常、単着の試着作業(例えば、上着と下着、ドレス)のために設計されている。
2)ドレッシングスタイルの特定
既存の方法では、指示(例: zipped/unzipped, tuck-in/tuck-outなど)に基づいてドレッシングスタイルをカスタマイズできない。
さらに、置換領域を特定するためにカテゴリ固有のセグメンテーションモデルに強く依存しており、セグメンテーションエラーは試行錯誤の結果において直接的に重要なアーティファクトに繋がる。
最初の2つの課題に対処するため,MMTryonでは,参照画像からの衣服情報とテキスト指示からのドレッシングスタイル情報を組み合わせた,新しいマルチモーダリティとマルチリファレンスアテンション機構を導入している。
さらに、セグメンテーション依存を取り除くために、MMTryonはパーシングフリーの衣料エンコーダを使用し、新しいスケーラブルなデータ生成パイプラインを活用して、既存のVITONデータセットを明示的なセグメンテーションを必要とせずに、MMTryonをトレーニング可能な形式に変換する。
高解像度のベンチマークと実験セットに関する大規模な実験は、MMTryonが既存のSOTA法よりも質的かつ定量的に優れていることを示した。
MMTryonは、マルチテムでスタイル制御可能な仮想試用シナリオにおける印象的なパフォーマンスと、あらゆるソースイメージからさまざまなシナリオであらゆる服を試す能力によって、ファッションコミュニティにおける将来の調査のための新たな道を開いた。
関連論文リスト
- OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。
例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。
MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文 参考訳(メタデータ) (2024-05-29T17:59:10Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - Fashion Image Retrieval with Multi-Granular Alignment [4.109124423081812]
ファッション画像検索タスクは,ギャラリーから検索画像の関連する衣服を検索することを目的としている。
これまでのレシピでは、異なる距離に基づく損失関数の設計、関連するペアの接近、無関係なイメージの分離に重点を置いていた。
MGA(Multi-Granular Alignment)と呼ばれる大域的特徴ときめ細かな特徴を両立させる新しいファッション画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-02-16T10:43:31Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。