Fugu-MT 論文翻訳(概要): MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation

論文の概要: MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation

arxiv url: http://arxiv.org/abs/2405.00448v1
Date: Wed, 1 May 2024 11:04:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 15:57:39.029463
Title: MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation
Title（参考訳）: MMTryon:高品質ファッション生成のためのマルチモードマルチ参照制御
Authors: Xujie Zhang, Ente Lin, Xiu Li, Yuxuan Luo, Michael Kampffmeyer, Xin Dong, Xiaodan Liang,
Abstract要約: MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。テキスト命令と複数の衣料品画像とを入力として、高品質な合成試行結果を生成することができる。
参考スコア（独自算出の注目度）: 70.83668869857665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces MMTryon, a multi-modal multi-reference VIrtual Try-ON (VITON) framework, which can generate high-quality compositional try-on results by taking as inputs a text instruction and multiple garment images. Our MMTryon mainly addresses two problems overlooked in prior literature: 1) Support of multiple try-on items and dressing styleExisting methods are commonly designed for single-item try-on tasks (e.g., upper/lower garments, dresses) and fall short on customizing dressing styles (e.g., zipped/unzipped, tuck-in/tuck-out, etc.) 2) Segmentation Dependency. They further heavily rely on category-specific segmentation models to identify the replacement regions, with segmentation errors directly leading to significant artifacts in the try-on results. For the first issue, our MMTryon introduces a novel multi-modality and multi-reference attention mechanism to combine the garment information from reference images and dressing-style information from text instructions. Besides, to remove the segmentation dependency, MMTryon uses a parsing-free garment encoder and leverages a novel scalable data generation pipeline to convert existing VITON datasets to a form that allows MMTryon to be trained without requiring any explicit segmentation. Extensive experiments on high-resolution benchmarks and in-the-wild test sets demonstrate MMTryon's superiority over existing SOTA methods both qualitatively and quantitatively. Besides, MMTryon's impressive performance on multi-items and style-controllable virtual try-on scenarios and its ability to try on any outfit in a large variety of scenarios from any source image, opens up a new avenue for future investigation in the fashion community.
Abstract（参考訳）: 本稿では,テキストインストラクションと複数の衣料品イメージを入力として,高品質な合成試行結果を生成するマルチモーダルマルチ参照VITONフレームワークであるMMTryonを紹介する。私たちのMMTryonは主に、以前の文献で見落とされた2つの問題に対処しています。 1)複数の試着品と着物スタイルのサポートは、通常、単着の試着作業(例えば、上着・下着・着物)のために設計され、着物スタイル(例えば、ツッピング・アンズプ、タックイン・タックアウト等)のカスタマイズに不足している。 2)セグメンテーション依存。さらに、置換領域を特定するためにカテゴリ固有のセグメンテーションモデルに強く依存しており、セグメンテーションエラーは試行錯誤の結果において直接的に重要なアーティファクトに繋がる。第一号として,MMTryonでは,参照画像からの衣服情報とテキスト指示からのドレッシングスタイル情報を組み合わせた,新しいマルチモダリティ・マルチリファレンスアテンション機構を導入している。さらに、セグメンテーション依存を取り除くために、MMTryonはパーシングフリーの衣料エンコーダを使用し、新しいスケーラブルなデータ生成パイプラインを活用して、既存のVITONデータセットを明示的なセグメンテーションを必要とせずに、MMTryonをトレーニング可能な形式に変換する。高解像度のベンチマークと実験セットに関する大規模な実験は、MMTryonが既存のSOTA法よりも質的かつ定量的に優れていることを示した。さらに、MMTryonのマルチテムとスタイル制御可能な仮想トライオンシナリオにおける印象的なパフォーマンスや、あらゆるソースイメージからさまざまなシナリオの任意の衣装を試す能力は、ファッションコミュニティにおける今後の調査のための新たな道を開く。

関連論文リスト

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents [105.43882565434444]
VLM2Vec-V2は、様々な視覚形態にまたがる埋め込みを学習するための統一的なフレームワークである。まず、MMEBを5つの新しいタスクタイプで拡張する包括的なベンチマークであるMMEB-V2を紹介する。次に、テキスト、画像、ビデオ、ビジュアルドキュメント入力をサポートする汎用埋め込みモデルであるVLM2Vec-V2を訓練する。
論文参考訳（メタデータ） (2025-07-07T00:51:57Z)
Fashion-RAG: Multimodal Fashion Image Editing via Retrieval-Augmented Generation [36.66066619847558]
ファッション業界は、顧客エクスペリエンスを高めるためにAIテクノロジーをますます採用している。 Fashion-RAGは、マルチモーダルなファッション画像編集に適した検索拡張型生成手法を導入するための最初の試みである。
論文参考訳（メタデータ） (2025-04-18T18:02:33Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文参考訳（メタデータ） (2024-06-07T06:45:28Z)
Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。 MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文参考訳（メタデータ） (2024-05-29T17:59:10Z)
MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文参考訳（メタデータ） (2024-04-16T16:50:35Z)
MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。 MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文参考訳（メタデータ） (2024-01-18T18:50:16Z)
Fashion Image Retrieval with Multi-Granular Alignment [4.109124423081812]
ファッション画像検索タスクは,ギャラリーから検索画像の関連する衣服を検索することを目的としている。これまでのレシピでは、異なる距離に基づく損失関数の設計、関連するペアの接近、無関係なイメージの分離に重点を置いていた。 MGA(Multi-Granular Alignment)と呼ばれる大域的特徴ときめ細かな特徴を両立させる新しいファッション画像検索手法を提案する。
論文参考訳（メタデータ） (2023-02-16T10:43:31Z)
FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。 3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文参考訳（メタデータ） (2022-10-26T21:01:19Z)
Multi-View Document Representation Learning for Open-Domain Dense Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文参考訳（メタデータ） (2022-03-16T03:36:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。