論文の概要: DiT-VTON: Diffusion Transformer Framework for Unified Multi-Category Virtual Try-On and Virtual Try-All with Integrated Image Editing
- arxiv url: http://arxiv.org/abs/2510.04797v1
- Date: Fri, 03 Oct 2025 16:27:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.878525
- Title: DiT-VTON: Diffusion Transformer Framework for Unified Multi-Category Virtual Try-On and Virtual Try-All with Integrated Image Editing
- Title(参考訳): DiT-VTON:統合画像編集による仮想試行と仮想試行のための拡散変圧器フレームワーク
- Authors: Qi Li, Shuwen Qiu, Julien Han, Xingzi Xu, Mehmet Saygin Seyfioglu, Kee Kiat Koo, Karim Bouyarmane,
- Abstract要約: 拡散変換器(DiT)を利用した新しいVTOフレームワークであるDiT-VTONを提案する。
我々のモデルは、VITON-HDの最先端手法を超越し、コンディションエンコーダに頼らずに、優れたディテール保存とロバスト性を実現する。
また、VTAと画像編集機能により、何千もの製品カテゴリにまたがる多様なデータセットでモデルのパフォーマンスも向上する。
- 参考スコア(独自算出の注目度): 11.550777201655393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of e-commerce has intensified the demand for Virtual Try-On (VTO) technologies, enabling customers to realistically visualize products overlaid on their own images. Despite recent advances, existing VTO models face challenges with fine-grained detail preservation, robustness to real-world imagery, efficient sampling, image editing capabilities, and generalization across diverse product categories. In this paper, we present DiT-VTON, a novel VTO framework that leverages a Diffusion Transformer (DiT), renowned for its performance on text-conditioned image generation, adapted here for the image-conditioned VTO task. We systematically explore multiple DiT configurations, including in-context token concatenation, channel concatenation, and ControlNet integration, to determine the best setup for VTO image conditioning. To enhance robustness, we train the model on an expanded dataset encompassing varied backgrounds, unstructured references, and non-garment categories, demonstrating the benefits of data scaling for VTO adaptability. DiT-VTON also redefines the VTO task beyond garment try-on, offering a versatile Virtual Try-All (VTA) solution capable of handling a wide range of product categories and supporting advanced image editing functionalities such as pose preservation, localized editing, texture transfer, and object-level customization. Experimental results show that our model surpasses state-of-the-art methods on VITON-HD, achieving superior detail preservation and robustness without reliance on additional condition encoders. It also outperforms models with VTA and image editing capabilities on a diverse dataset spanning thousands of product categories.
- Abstract(参考訳): 電子商取引の急速な成長により、仮想トライオン(VTO)技術への需要が増大し、顧客は自分のイメージにオーバーレイされた製品を現実的に視覚化することができるようになった。
近年の進歩にもかかわらず、既存のVTOモデルは細かなディテールの保存、現実世界の画像への堅牢性、効率的なサンプリング、画像編集機能、さまざまな製品カテゴリにわたる一般化といった課題に直面している。
本稿では,Diffusion Transformer (DiT) を利用した新しいVTOフレームワークであるDiT-VTONについて述べる。
本稿では,VTO画像コンディショニングの最適設定を決定するために,コンテクスト内トークンの連結,チャネルの連結,コントロールネットの統合など,複数のDiT構成を体系的に検討する。
頑健性を高めるため,さまざまな背景,非構造化参照,非ガーメントカテゴリを含む拡張データセット上でモデルをトレーニングし,VTO適応性に対するデータスケーリングのメリットを示す。
DiT-VTONはまた、衣料試着以外のVTOタスクを再定義し、幅広い製品カテゴリを処理し、ポーズ保存、ローカライズされた編集、テクスチャ転送、オブジェクトレベルのカスタマイズなどの高度な画像編集機能をサポートする、汎用の仮想トライオール(VTA)ソリューションを提供する。
実験結果から,本モデルはVITON-HDの最先端手法を超越し,コンディションエンコーダの追加に依存することなく,より詳細な保存とロバスト性を実現していることがわかった。
また、VTAと画像編集機能により、何千もの製品カテゴリにまたがる多様なデータセットでモデルのパフォーマンスも向上する。
関連論文リスト
- Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals [76.96387718150542]
テキスト強化Multi-category Virtual Try-Off(TEMU-VTOFF)を提案する。
私たちのアーキテクチャは、画像、テキスト、マスクなどの複数のモードから衣料情報を受け取り、複数のカテゴリで機能するように設計されています。
VITON-HDおよびDress Codeデータセットの実験では、TEMU-VTOFFがVTOFFタスクに新たな最先端を設定していることが示されている。
論文 参考訳(メタデータ) (2025-05-27T11:47:51Z) - ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text [11.85544970521423]
画像品質を向上させるためにDiffusion Transformer (DiT) をジェネレータとして利用する ITVTON を導入する。
ITVTONは、空間チャネルに沿って衣服や人物画像を縫い合わせることにより、衣服と人物の相互作用を改善する。
単一拡散変圧器(Single-DiT)ブロック内の注意パラメータに対する訓練を制約する。
論文 参考訳(メタデータ) (2025-01-28T07:24:15Z) - CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation [75.10635392993748]
視覚に基づく仮想試行(V2TON)方式であるCatV2TONを導入する。
CatV2TONは、衣服と人物の入力を時間的に結合し、画像とビデオのデータセットを混合してトレーニングすることにより、堅牢な試着性能を実現する。
また、背面フレームをフィルタリングし、3Dマスクのスムース化を施した精巧なビデオ試行データセットViViD-Sを提案する。
論文 参考訳(メタデータ) (2025-01-20T08:09:36Z) - TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On [78.33688031340698]
TED-VITONはGarment Semantic (GS) Adapterを統合した新しいフレームワークである。
これらのイノベーションは、視覚的品質とテキストの忠実さにおける最先端(SOTA)のパフォーマンスを可能にする。
論文 参考訳(メタデータ) (2024-11-26T01:00:09Z) - VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - C-VTON: Context-Driven Image-Based Virtual Try-On Network [1.0832844764942349]
本稿では,選択した衣服を対象者に確実に転送するコンテキスト駆動型仮想トライオンネットワーク(C-VTON)を提案する。
C-VTONパイプラインのコアには、(i)入力画像中の人物のポーズに目的の衣服を効率よく整列する幾何マッチング手順と、(ii)最終試行結果に様々な種類の文脈情報を利用する強力な画像生成装置とがある。
論文 参考訳(メタデータ) (2022-12-08T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。