論文の概要: OmniTry: Virtual Try-On Anything without Masks
- arxiv url: http://arxiv.org/abs/2508.13632v1
- Date: Tue, 19 Aug 2025 08:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.853934
- Title: OmniTry: Virtual Try-On Anything without Masks
- Title(参考訳): OmniTry: マスクなしのバーチャルトライオン
- Authors: Yutong Feng, Linlin Zhang, Hengyuan Cao, Yiming Chen, Xiaoduan Feng, Jian Cao, Yuxiong Wu, Bin Wang,
- Abstract要約: 本稿では,VTON(Virtual Try-ON)を衣料以外のウェアラブルオブジェクトにまで拡張する統合フレームワークであるOmniTryについて述べる。
データキュレーションは、オブジェクト画像とそれに対応する試行結果のペア画像を得るのに困難である。
- 参考スコア(独自算出の注目度): 13.981452272679785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Virtual Try-ON (VTON) is a practical and widely-applied task, for which most of existing works focus on clothes. This paper presents OmniTry, a unified framework that extends VTON beyond garment to encompass any wearable objects, e.g., jewelries and accessories, with mask-free setting for more practical application. When extending to various types of objects, data curation is challenging for obtaining paired images, i.e., the object image and the corresponding try-on result. To tackle this problem, we propose a two-staged pipeline: For the first stage, we leverage large-scale unpaired images, i.e., portraits with any wearable items, to train the model for mask-free localization. Specifically, we repurpose the inpainting model to automatically draw objects in suitable positions given an empty mask. For the second stage, the model is further fine-tuned with paired images to transfer the consistency of object appearance. We observed that the model after the first stage shows quick convergence even with few paired samples. OmniTry is evaluated on a comprehensive benchmark consisting of 12 common classes of wearable objects, with both in-shop and in-the-wild images. Experimental results suggest that OmniTry shows better performance on both object localization and ID-preservation compared with existing methods. The code, model weights, and evaluation benchmark of OmniTry will be made publicly available at https://omnitry.github.io/.
- Abstract(参考訳): VTON(Virtual Try-ON)は実用的で広く採用されている作業であり、既存の作業の多くは衣服に焦点を当てている。
本稿では,VTONを衣料以外のウェアラブルオブジェクト,例えば宝石やアクセサリに拡張する統合フレームワークであるOmniTryについて述べる。
様々な種類のオブジェクトに拡張する場合、オブジェクト画像とそれに対応する試行結果のペア画像を得るには、データのキュレーションが難しい。
この問題に対処するために,我々は2段階のパイプラインを提案する: 第一段階では,大規模な未ペア画像,すなわちウェアラブルアイテムのポートレートを活用して,マスクレスローカライゼーションのモデルをトレーニングする。
具体的には,空のマスクを与えられた位置の物体を自動的に描画するインペイントモデルを再利用する。
第2段階では、モデルは、オブジェクトの外観の一貫性を伝達するために、ペア画像でさらに微調整される。
その結果,2つのサンプルがほとんどない場合でも,第1段階以降のモデルが高速収束を示すことがわかった。
OmniTryは、12種類のウェアラブルオブジェクトからなる包括的なベンチマークで評価されている。
実験結果から,OmniTryは既存手法と比較して,オブジェクトのローカライゼーションとID保存の両面で優れた性能を示した。
OmniTryのコード、モデルウェイト、評価ベンチマークはhttps://omnitry.github.io/.com/で公開される。
関連論文リスト
- One Model For All: Partial Diffusion for Unified Try-On and Try-Off in Any Pose [99.056324701764]
textbfOMFA (emphOne Model For All) は仮想トライオンとトライオフの両方のための統合拡散フレームワークである。
フレームワークは完全にマスクフリーで、単一のポートレートとターゲットのポーズのみを入力として必要とします。
試着タスクと試着タスクの両方で最先端の結果が得られ、仮想衣料合成のための実用的で一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-06T15:46:01Z) - Any2AnyTryon: Leveraging Adaptive Position Embeddings for Versatile Virtual Clothing Tasks [31.461116368933165]
画像ベースの仮想試行(VTON)は、入力された衣服を対象者の画像に転送することで仮想試行結果を生成することを目的としている。
組合わせ型衣料品データの不足は,VTONの高一般化と品質を実現する既存手法を困難にしている。
そこで,AnyTryonを提案する。AnyTryonは,異なるテキスト命令とモデル衣料品画像に基づいて試着結果を生成することができる。
論文 参考訳(メタデータ) (2025-01-27T09:33:23Z) - Generic Objects as Pose Probes for Few-shot View Synthesis [14.768563613747633]
NeRFや3D Gaussianなどの放射場は、高忠実なレンダリングやシーン再構成において大きな可能性を示している。
COLMAPはポーズを推定する前処理によく使用される。
我々は,3~6面のシーン画像のみを用いて,少数視点のNeRF再構成を実現することを目的としている。
論文 参考訳(メタデータ) (2024-08-29T16:37:58Z) - MV-VTON: Multi-View Virtual Try-On with Diffusion Models [91.71150387151042]
画像ベースの仮想試着の目的は、与えられた衣服を自然に身に着けている対象者の画像を生成することである。
既存の方法は、前頭服を用いた正面試着のみに焦点をあてる方法である。
本稿では,服の複数ビューからドレッシング結果を再構築することを目的としたMulti-View Virtual Try-ON(MV-VTON)を紹介する。
論文 参考訳(メタデータ) (2024-04-26T12:27:57Z) - AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。
我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文 参考訳(メタデータ) (2023-07-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。