論文の概要: HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment
- arxiv url: http://arxiv.org/abs/2505.19638v2
- Date: Fri, 13 Jun 2025 08:22:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 13:34:01.772881
- Title: HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment
- Title(参考訳): HF-VTON:一貫した幾何学と意味的アライメントによる高忠実バーチャルトライオン
- Authors: Ming Meng, Qi Dong, Jiajie Li, Zhe Zhu, Xingyu Wang, Zhaoxin Fan, Wei Zhao, Wenjun Wu,
- Abstract要約: HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
- 参考スコア(独自算出の注目度): 11.00877062567135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual try-on technology has become increasingly important in the fashion and retail industries, enabling the generation of high-fidelity garment images that adapt seamlessly to target human models. While existing methods have achieved notable progress, they still face significant challenges in maintaining consistency across different poses. Specifically, geometric distortions lead to a lack of spatial consistency, mismatches in garment structure and texture across poses result in semantic inconsistency, and the loss or distortion of fine-grained details diminishes visual fidelity. To address these challenges, we propose HF-VTON, a novel framework that ensures high-fidelity virtual try-on performance across diverse poses. HF-VTON consists of three key modules: (1) the Appearance-Preserving Warp Alignment Module (APWAM), which aligns garments to human poses, addressing geometric deformations and ensuring spatial consistency; (2) the Semantic Representation and Comprehension Module (SRCM), which captures fine-grained garment attributes and multi-pose data to enhance semantic representation, maintaining structural, textural, and pattern consistency; and (3) the Multimodal Prior-Guided Appearance Generation Module (MPAGM), which integrates multimodal features and prior knowledge from pre-trained models to optimize appearance generation, ensuring both semantic and geometric consistency. Additionally, to overcome data limitations in existing benchmarks, we introduce the SAMP-VTONS dataset, featuring multi-pose pairs and rich textual annotations for a more comprehensive evaluation. Experimental results demonstrate that HF-VTON outperforms state-of-the-art methods on both VITON-HD and SAMP-VTONS, excelling in visual fidelity, semantic consistency, and detail preservation.
- Abstract(参考訳): 仮想試着技術は、ファッションや小売業界ではますます重要になってきており、人間のモデルにシームレスに適応する高忠実な衣料品画像の生成を可能にしている。
既存の手法は目覚ましい進歩を遂げていますが、異なるポーズ間で一貫性を維持する上で大きな課題に直面しています。
特に、幾何学的歪みは、空間的一貫性の欠如、衣服の構造のミスマッチ、ポーズ間のテクスチャの相違、意味的不整合、きめ細かい詳細の喪失や歪みは視覚的忠実さを低下させる。
これらの課題に対処するために,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークであるHF-VTONを提案する。
HF-VTON は,(1) 衣服を人間のポーズに整列し,幾何学的変形に対処し,空間的整合性を確保する適応型ワープアライメントモジュール (APWAM) ,(2) 微粒な衣服属性と多目的データをキャプチャして意味的表現性を高め,構造的,テクスチャ的,パターン的整合性を維持するセマンティック表現・理解モジュール (SRCM) ,(3) マルチモーダル事前指導型アライメント生成モジュール (MPAGM) の3つの重要なモジュールから構成される。
さらに,既存のベンチマークにおけるデータ制限を克服するために,多目的ペアとリッチテキストアノテーションを備えたSAMP-VTONSデータセットを導入し,より包括的な評価を行う。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れており,視覚的忠実性,意味的一貫性,詳細保存に優れていた。
関連論文リスト
- Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off [9.45991209383675]
仮想的な試行と試行を単一の拡散変換器で共同で学習する統合フレームワークであるVoostを提案する。
Voostは、試行錯誤ベンチマークと試行錯誤ベンチマークの両方で最先端の結果を達成し、アライメント精度、視覚的忠実度、一般化における強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-08-06T19:10:58Z) - OmniVTON: Training-Free Universal Virtual Try-On [53.31945401098557]
イメージベースの仮想トライオン(VTON)技術は、適応性を改善するが、データバイアスと制限された普遍性によって制約される、教師付きインショップアプローチまたは教師なしインザワイルド手法のいずれかに依存している。
OmniVTONは,布地を疎結合にし,テクスチャの忠実さを両立させ,多様な設定に整合性を持たせるための条件付けを行う,初めてのトレーニングフリーユニバーサルVTONフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T16:37:53Z) - DiffFit: Disentangled Garment Warping and Texture Refinement for Virtual Try-On [3.5655800569257896]
VTON(Virtual try-on)は、ターゲット服を着用している人のリアルなイメージを、電子商取引やデジタルファッションに広く応用することを目的としている。
DiffFitは,高忠実度仮想試行のための新しい2段階遅延拡散フレームワークである。
論文 参考訳(メタデータ) (2025-06-29T15:31:42Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - DS-VTON: High-Quality Virtual Try-on via Disentangled Dual-Scale Generation [38.499761393356124]
DS-VTONは、より効果的なモデリングのために目的を絞ったデュアルスケール仮想試行フレームワークである。
提案手法では, パーシングマップやセグメンテーションマスクへの依存を排除し, マスクフリーな生成パラダイムを採用する。
論文 参考訳(メタデータ) (2025-06-01T08:52:57Z) - Equal is Not Always Fair: A New Perspective on Hyperspectral Representation Non-Uniformity [42.8098014428052]
ハイパースペクトル画像(HSI)の表現は、広汎な非一様性によって根本的に挑戦される。
フェアネス指向のフレームワークであるFairHypを提案する。
本研究は,HSIモデリングにおける構造的必要条件として公正性を再定義し,適応性,効率,忠実性のバランスをとるための新たなパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-16T14:00:11Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models [4.038493506169702]
本研究は, 複雑なテクスチャの詳細と, 対象者と衣服の特徴を, 様々なシナリオで保存することの課題を強調する。
様々な既存アプローチが検討され、制限と未解決の側面を強調している。
次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:15:29Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。