論文の概要: UniFit: Towards Universal Virtual Try-on with MLLM-Guided Semantic Alignment
- arxiv url: http://arxiv.org/abs/2511.15831v1
- Date: Wed, 19 Nov 2025 19:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.351932
- Title: UniFit: Towards Universal Virtual Try-on with MLLM-Guided Semantic Alignment
- Title(参考訳): UniFit: MLLM誘導セマンティックアライメントによるユニバーサルバーチャルトライオンを目指して
- Authors: Wei Zhang, Yeying Jin, Xin Li, Yan Zhang, Xiaofeng Cong, Cong Wang, Fengcai Qiao, zhichao Lian,
- Abstract要約: 画像ベースの仮想試着(VTON)は、特定の服装を身に着けている人の写実的な画像を合成することを目的としている。
UniFitはMultimodal Large Language Model (MLLM)によって駆動される普遍的なVTONフレームワークである
UniFitは、マルチガーメントやモデルからモデルへのトライオンを含む幅広いVTONタスクをサポートしているが、最先端のパフォーマンスも実現している。
- 参考スコア(独自算出の注目度): 22.51114099598294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based virtual try-on (VTON) aims to synthesize photorealistic images of a person wearing specified garments. Despite significant progress, building a universal VTON framework that can flexibly handle diverse and complex tasks remains a major challenge. Recent methods explore multi-task VTON frameworks guided by textual instructions, yet they still face two key limitations: (1) semantic gap between text instructions and reference images, and (2) data scarcity in complex scenarios. To address these challenges, we propose UniFit, a universal VTON framework driven by a Multimodal Large Language Model (MLLM). Specifically, we introduce an MLLM-Guided Semantic Alignment Module (MGSA), which integrates multimodal inputs using an MLLM and a set of learnable queries. By imposing a semantic alignment loss, MGSA captures cross-modal semantic relationships and provides coherent and explicit semantic guidance for the generative process, thereby reducing the semantic gap. Moreover, by devising a two-stage progressive training strategy with a self-synthesis pipeline, UniFit is able to learn complex tasks from limited data. Extensive experiments show that UniFit not only supports a wide range of VTON tasks, including multi-garment and model-to-model try-on, but also achieves state-of-the-art performance. The source code and pretrained models are available at https://github.com/zwplus/UniFit.
- Abstract(参考訳): 画像ベースの仮想試着(VTON)は、特定の服装を身に着けている人の写実的な画像を合成することを目的としている。
大きな進歩にもかかわらず、多様で複雑なタスクを柔軟に処理できる普遍的なVTONフレームワークの構築は、依然として大きな課題である。
近年,テキスト命令でガイドされるマルチタスクVTONフレームワークを探索する手法が提案されているが,テキスト命令と参照画像のセマンティックギャップ,複雑なシナリオにおけるデータの不足という2つの重要な制約に直面している。
これらの課題に対処するため,Multimodal Large Language Model (MLLM)によって駆動されるユニバーサルVTONフレームワークであるUniFitを提案する。
具体的には、MLLMと学習可能なクエリセットを用いてマルチモーダル入力を統合する、MLLM-Guided Semantic Alignment Module (MGSA)を導入する。
意味的アライメント損失を付与することにより、MGSAは相互の意味的関係を捕捉し、生成プロセスに対する一貫性と明示的な意味的ガイダンスを提供することにより、意味的ギャップを減少させる。
さらに、自己合成パイプラインで2段階のプログレッシブトレーニング戦略を考案することで、UniFitは限られたデータから複雑なタスクを学習することができる。
大規模な実験により、UniFitはマルチガーメントやモデル・ツー・モデル・トライ・オンを含む幅広いVTONタスクをサポートするだけでなく、最先端のパフォーマンスも達成している。
ソースコードと事前訓練されたモデルはhttps://github.com/zwplus/UniFit.comで入手できる。
関連論文リスト
- SAILViT: Towards Robust and Generalizable Visual Backbones for MLLMs via Gradual Feature Refinement [11.815369617016174]
視覚変換器(ViT)は,マルチモーダル大言語モデル(MLLM)の視覚的理解能力を確立する上で,基礎的バックボーンとして不可欠である
本稿では,MLLMの複雑なマルチモーダルインタラクションにおける性能ボトルネックを突破するための,段階的特徴学習型ViTを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:17:23Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - OneLLM: One Framework to Align All Modalities with Language [86.8818857465443]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。