論文の概要: HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment
- arxiv url: http://arxiv.org/abs/2505.19638v1
- Date: Mon, 26 May 2025 07:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.25998
- Title: HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment
- Title(参考訳): HF-VTON:一貫した幾何学と意味的アライメントによる高忠実バーチャルトライオン
- Authors: Ming Meng, Qi Dong, Jiajie Li, Zhe Zhu, Xingyu Wang, Zhaoxin Fan, Wei Zhao, Wenjun Wu,
- Abstract要約: HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
- 参考スコア(独自算出の注目度): 11.00877062567135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual try-on technology has become increasingly important in the fashion and retail industries, enabling the generation of high-fidelity garment images that adapt seamlessly to target human models. While existing methods have achieved notable progress, they still face significant challenges in maintaining consistency across different poses. Specifically, geometric distortions lead to a lack of spatial consistency, mismatches in garment structure and texture across poses result in semantic inconsistency, and the loss or distortion of fine-grained details diminishes visual fidelity. To address these challenges, we propose HF-VTON, a novel framework that ensures high-fidelity virtual try-on performance across diverse poses. HF-VTON consists of three key modules: (1) the Appearance-Preserving Warp Alignment Module (APWAM), which aligns garments to human poses, addressing geometric deformations and ensuring spatial consistency; (2) the Semantic Representation and Comprehension Module (SRCM), which captures fine-grained garment attributes and multi-pose data to enhance semantic representation, maintaining structural, textural, and pattern consistency; and (3) the Multimodal Prior-Guided Appearance Generation Module (MPAGM), which integrates multimodal features and prior knowledge from pre-trained models to optimize appearance generation, ensuring both semantic and geometric consistency. Additionally, to overcome data limitations in existing benchmarks, we introduce the SAMP-VTONS dataset, featuring multi-pose pairs and rich textual annotations for a more comprehensive evaluation. Experimental results demonstrate that HF-VTON outperforms state-of-the-art methods on both VITON-HD and SAMP-VTONS, excelling in visual fidelity, semantic consistency, and detail preservation.
- Abstract(参考訳): 仮想試着技術は、ファッションや小売業界ではますます重要になってきており、人間のモデルにシームレスに適応する高忠実な衣料品画像の生成を可能にしている。
既存の手法は目覚ましい進歩を遂げていますが、異なるポーズ間で一貫性を維持する上で大きな課題に直面しています。
特に、幾何学的歪みは、空間的一貫性の欠如、衣服の構造のミスマッチ、ポーズ間のテクスチャの相違、意味的不整合、きめ細かい詳細の喪失や歪みは視覚的忠実さを低下させる。
これらの課題に対処するために,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークであるHF-VTONを提案する。
HF-VTON は,(1) 衣服を人間のポーズに整列し,幾何学的変形に対処し,空間的整合性を確保する適応型ワープアライメントモジュール (APWAM) ,(2) 微粒な衣服属性と多目的データをキャプチャして意味的表現性を高め,構造的,テクスチャ的,パターン的整合性を維持するセマンティック表現・理解モジュール (SRCM) ,(3) マルチモーダル事前指導型アライメント生成モジュール (MPAGM) の3つの重要なモジュールから構成される。
さらに,既存のベンチマークにおけるデータ制限を克服するために,多目的ペアとリッチテキストアノテーションを備えたSAMP-VTONSデータセットを導入し,より包括的な評価を行う。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れており,視覚的忠実性,意味的一貫性,詳細保存に優れていた。
関連論文リスト
- Equal is Not Always Fair: A New Perspective on Hyperspectral Representation Non-Uniformity [42.8098014428052]
ハイパースペクトル画像(HSI)の表現は、広汎な非一様性によって根本的に挑戦される。
フェアネス指向のフレームワークであるFairHypを提案する。
本研究は,HSIモデリングにおける構造的必要条件として公正性を再定義し,適応性,効率,忠実性のバランスをとるための新たなパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-16T14:00:11Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models [4.038493506169702]
本研究は, 複雑なテクスチャの詳細と, 対象者と衣服の特徴を, 様々なシナリオで保存することの課題を強調する。
様々な既存アプローチが検討され、制限と未解決の側面を強調している。
次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:15:29Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。