論文の概要: Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off
- arxiv url: http://arxiv.org/abs/2508.04825v1
- Date: Wed, 06 Aug 2025 19:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.625514
- Title: Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off
- Title(参考訳): Voost: 双方向仮想トライオンとトライオフのための統一かつスケーラブルな拡散変換器
- Authors: Seungyong Lee, Jeong-gi Kwak,
- Abstract要約: 仮想的な試行と試行を単一の拡散変換器で共同で学習する統合フレームワークであるVoostを提案する。
Voostは、試行錯誤ベンチマークと試行錯誤ベンチマークの両方で最先端の結果を達成し、アライメント精度、視覚的忠実度、一般化における強いベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 9.45991209383675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible conditioning over generation direction and garment category, enhancing garment-body relational reasoning without task-specific networks, auxiliary losses, or additional labels. In addition, we introduce two inference-time techniques: attention temperature scaling for robustness to resolution or mask variation, and self-corrective sampling that leverages bidirectional consistency between tasks. Extensive experiments demonstrate that Voost achieves state-of-the-art results on both try-on and try-off benchmarks, consistently outperforming strong baselines in alignment accuracy, visual fidelity, and generalization.
- Abstract(参考訳): 仮想試着は、ターゲットの服装を身に着けている人の現実的なイメージを合成することを目的としているが、衣体対応を正確にモデル化することは、特にポーズや外見の変化下での永続的な課題である。
本稿では,仮想的な試行と試行を単一拡散トランスフォーマーで共同で学習する,統一的でスケーラブルなフレームワークであるVoostを提案する。
両タスクを共同でモデル化することにより、各衣服対が両方の方向を監督し、生成方向と衣服カテゴリーのフレキシブルな条件付けをサポートし、タスク固有のネットワーク、補助的損失、追加ラベルのない衣体関係推論を強化する。
さらに,分解能やマスク変動に対するロバスト性を考慮したアテンション温度スケーリングと,タスク間の双方向整合性を活用した自己補正サンプリングという,2つの推論時間手法を導入する。
大規模な実験により、Voostは試行錯誤ベンチマークと試行錯誤ベンチマークの両方で最先端の結果を達成し、アライメント精度、視覚的忠実度、一般化において強いベースラインを一貫して上回っていることが示されている。
関連論文リスト
- OmniVTON: Training-Free Universal Virtual Try-On [53.31945401098557]
イメージベースの仮想トライオン(VTON)技術は、適応性を改善するが、データバイアスと制限された普遍性によって制約される、教師付きインショップアプローチまたは教師なしインザワイルド手法のいずれかに依存している。
OmniVTONは,布地を疎結合にし,テクスチャの忠実さを両立させ,多様な設定に整合性を持たせるための条件付けを行う,初めてのトレーニングフリーユニバーサルVTONフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T16:37:53Z) - DiffFit: Disentangled Garment Warping and Texture Refinement for Virtual Try-On [3.5655800569257896]
VTON(Virtual try-on)は、ターゲット服を着用している人のリアルなイメージを、電子商取引やデジタルファッションに広く応用することを目的としている。
DiffFitは,高忠実度仮想試行のための新しい2段階遅延拡散フレームワークである。
論文 参考訳(メタデータ) (2025-06-29T15:31:42Z) - DS-VTON: High-Quality Virtual Try-on via Disentangled Dual-Scale Generation [38.499761393356124]
DS-VTONは、より効果的なモデリングのために目的を絞ったデュアルスケール仮想試行フレームワークである。
提案手法では, パーシングマップやセグメンテーションマスクへの依存を排除し, マスクフリーな生成パラダイムを採用する。
論文 参考訳(メタデータ) (2025-06-01T08:52:57Z) - HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [11.00877062567135]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On [89.9123806553489]
拡散モデルは仮想試行(VTON)タスクで成功している。
この問題は、拡散モデルの本質性により、与えられた衣服の形状や細部を保存することは依然として困難である。
本稿では,視力の拡散前処理として視覚的対応を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2025-05-22T17:52:13Z) - UniViTAR: Unified Vision Transformer with Native Resolution [37.63387029787732]
UniViTARは、視覚の統一性とネイティブ解像度のシナリオに適した、均質な視覚基盤モデルのファミリーである。
2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入された。
並行して、ハイブリッドトレーニングフレームワークは、凍結教師モデルからの特徴蒸留に伴うシグモイドに基づくコントラスト損失をさらにシナジする。
論文 参考訳(メタデータ) (2025-04-02T14:59:39Z) - Hierarchical Cross-Attention Network for Virtual Try-On [59.50297858307268]
我々は,仮想試行課題に対する革新的な解決策を提示する:我々の小説HCANet(Hierarchical Cross-Attention Network)
HCANetは、幾何学的マッチングと試行という2つの主要なステージで作られており、それぞれが現実的な仮想試行の結果を提供する上で重要な役割を果たす。
HCANetの重要な特徴は、新しい階層的クロスアテンション(HCA)ブロックを両方のステージに組み込むことで、個人と衣服のモダリティ間の長距離相関を効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-11-23T12:39:58Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - Drivable Volumetric Avatars using Texel-Aligned Features [52.89305658071045]
光テレプレゼンスは、動的に合成された外観を実現するために、高忠実度ボディモデリングと忠実な運転の両方を必要とする。
本稿では,現実人のフルボディアバターをモデリングし,駆動する際の2つの課題に対処するエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-20T09:28:16Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Cloth Interactive Transformer for Virtual Try-On [106.21605249649957]
本稿では,仮想試行作業のための2段階のインタラクティブトランス (CIT) 手法を提案する。
第1段階では, CITマッチングブロックを設計し, 着物非依存者情報と着物内布情報との長距離相関関係を正確に把握することを目的とした。
第2段階では,人物表現のグローバルな相互相互依存関係を確立するためのCIT推論ブロック,整形衣料品,およびそれに対応する整形布マスクを作成した。
論文 参考訳(メタデータ) (2021-04-12T14:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。