論文の概要: CrossVTON: Mimicking the Logic Reasoning on Cross-category Virtual Try-on guided by Tri-zone Priors
- arxiv url: http://arxiv.org/abs/2502.14373v1
- Date: Thu, 20 Feb 2025 09:05:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:27:24.579874
- Title: CrossVTON: Mimicking the Logic Reasoning on Cross-category Virtual Try-on guided by Tri-zone Priors
- Title(参考訳): CrossVTON: Tri-zone Priors によるクロスカテゴリ仮想トライオンにおける論理推論の模倣
- Authors: Donghao Luo, Yujie Liang, Xu Peng, Xiaobin Hu, Boyuan Jiang, Chengming Xu, Taisong Jin, Chengjie Wang, Yanwei Fu,
- Abstract要約: CrossVTONは、クロスカテゴリ仮想試行のための堅牢なフィッティングイメージを生成するためのフレームワークである。
クロスカテゴリ試行に必要な複雑な推論を構造化フレームワークに切り離す。
定性評価と定量的評価の両方において、既存のベースラインを超え、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 63.95051258676488
- License:
- Abstract: Despite remarkable progress in image-based virtual try-on systems, generating realistic and robust fitting images for cross-category virtual try-on remains a challenging task. The primary difficulty arises from the absence of human-like reasoning, which involves addressing size mismatches between garments and models while recognizing and leveraging the distinct functionalities of various regions within the model images. To address this issue, we draw inspiration from human cognitive processes and disentangle the complex reasoning required for cross-category try-on into a structured framework. This framework systematically decomposes the model image into three distinct regions: try-on, reconstruction, and imagination zones. Each zone plays a specific role in accommodating the garment and facilitating realistic synthesis. To endow the model with robust reasoning capabilities for cross-category scenarios, we propose an iterative data constructor. This constructor encompasses diverse scenarios, including intra-category try-on, any-to-dress transformations (replacing any garment category with a dress), and dress-to-any transformations (replacing a dress with another garment category). Utilizing the generated dataset, we introduce a tri-zone priors generator that intelligently predicts the try-on, reconstruction, and imagination zones by analyzing how the input garment is expected to align with the model image. Guided by these tri-zone priors, our proposed method, CrossVTON, achieves state-of-the-art performance, surpassing existing baselines in both qualitative and quantitative evaluations. Notably, it demonstrates superior capability in handling cross-category virtual try-on, meeting the complex demands of real-world applications.
- Abstract(参考訳): 画像ベースの仮想試行システムにおける顕著な進歩にもかかわらず、クロスカテゴリ仮想試行のための現実的で堅牢な画像を生成することは、依然として難しい課題である。
第一の難しさは、モデル画像内の様々な領域の機能を認識し、活用しながら、衣服とモデルの間のサイズミスマッチに対処する人間のような推論がないことである。
この問題に対処するため、人間の認知プロセスからインスピレーションを得て、クロスカテゴリ試行に必要な複雑な推論を構造化されたフレームワークに切り離す。
このフレームワークは、モデルイメージを3つの異なる領域(試行、再構築、想像のゾーン)に体系的に分解する。
各ゾーンは、衣服を収容し、現実的な合成を促進するために特定の役割を果たす。
クロスカテゴリシナリオに対して頑健な推論能力を持つモデルを実現するために,反復データコンストラクタを提案する。
このコンストラクタは、カテゴリー内の試着、任意の服装への変換(ドレスで衣料品のカテゴリーを置き換える)、ドレスから衣料品への変換(ドレスを他の衣服のカテゴリーに置き換える)など、さまざまなシナリオを含む。
生成したデータセットを利用して、入力された衣服がモデル画像とどのように一致するかを解析することにより、試行錯誤、再構築、想像ゾーンをインテリジェントに予測するトリゾーン先行生成装置を導入する。
提案手法であるCrossVTONは, 定性評価と定量的評価の両面で既存のベースラインを超え, 最先端性能を実現する。
特に、現実世界のアプリケーションの複雑な要求に応えて、クロスカテゴリ仮想トライオンを扱う優れた能力を示している。
関連論文リスト
- Dress-1-to-3: Single Image to Simulation-Ready 3D Outfit with Diffusion Prior and Differentiable Physics [27.697150953628572]
本稿では,動的衣料アニメーションを用いた仮想試着などのアプリケーションにおいて重要な領域である3D衣料生成に焦点を当てた。
そこで我々はDress-1-to-3という新しいパイプラインを紹介した。
論文 参考訳(メタデータ) (2025-02-05T18:49:03Z) - ITVTON:Virtual Try-On Diffusion Transformer Model Based on Integrated Image and Text [0.0]
ITVTONは,衣料品とキャラクタイメージを入力として空間チャネルに沿って組み合わせることで,衣料品とキャラクタのインタラクションを向上させる手法である。
複数の画像からテキストを統合的に記述することで、生成した視覚効果の現実性を高める。
実験では、ITVTONは質的にも定量的にもベースライン法より優れている。
論文 参考訳(メタデータ) (2025-01-28T07:24:15Z) - VortSDF: 3D Modeling with Centroidal Voronoi Tesselation on Signed Distance Field [5.573454319150408]
四面体グリッド上での3次元形状特性を推定するために,明示的なSDFフィールドと浅いカラーネットワークを組み合わせた体積最適化フレームワークを提案する。
Chamfer統計による実験結果は、オブジェクト、オープンシーン、人間などの様々なシナリオにおいて、前例のない復元品質でこのアプローチを検証する。
論文 参考訳(メタデータ) (2024-07-29T09:46:39Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。