論文の概要: Real-Time Per-Garment Virtual Try-On with Temporal Consistency for Loose-Fitting Garments
- arxiv url: http://arxiv.org/abs/2506.12348v1
- Date: Sat, 14 Jun 2025 04:57:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.897222
- Title: Real-Time Per-Garment Virtual Try-On with Temporal Consistency for Loose-Fitting Garments
- Title(参考訳): ロースフィッティングガーメントの時間的整合性を考慮した実時間1ゲージバーチャルトライオン
- Authors: Zaiqiang Wu, I-Chao Shen, Takeo Igarashi,
- Abstract要約: 本稿では,ロバストなセマンティックマップ推定のための2段階のアプローチを提案する。
まず、原画像から衣服不変表現を抽出する。
この表現は、セマンティックマップを推定するために補助ネットワークに渡される。
- 参考スコア(独自算出の注目度): 11.732243977359412
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Per-garment virtual try-on methods collect garment-specific datasets and train networks tailored to each garment to achieve superior results. However, these approaches often struggle with loose-fitting garments due to two key limitations: (1) They rely on human body semantic maps to align garments with the body, but these maps become unreliable when body contours are obscured by loose-fitting garments, resulting in degraded outcomes; (2) They train garment synthesis networks on a per-frame basis without utilizing temporal information, leading to noticeable jittering artifacts. To address these challenges, we propose a two-stage approach for robust semantic map estimation. First, we extract a garment-invariant representation from the raw input image. This representation is then passed through an auxiliary network to estimate the semantic map. This enhances the robustness of semantic map estimation under loose-fitting garments during garment-specific dataset generation. Furthermore, we introduce a recurrent garment synthesis framework that incorporates temporal dependencies to improve frame-to-frame coherence while maintaining real-time performance. We conducted qualitative and quantitative evaluations to demonstrate that our method outperforms existing approaches in both image quality and temporal coherence. Ablation studies further validate the effectiveness of the garment-invariant representation and the recurrent synthesis framework.
- Abstract(参考訳): 着物ごとの仮想試着方法では,着物毎のデータセットと,着物ごとに調整されたトレインネットワークを収集し,優れた結果が得られる。
しかし, この手法は, 1) 衣服を体に合わせるために人体意味地図に頼っているが, 体輪郭がゆるい衣服でぼやけると信頼性が低下し, 結果が劣化する, 2) 時間的情報を活用することなく, 衣服合成ネットワークをフレーム単位で訓練し, 顕著な破砕物を発生させるなど, 2つの重要な制約がある。
これらの課題に対処するために、ロバストなセマンティックマップ推定のための2段階のアプローチを提案する。
まず、原画像から衣服不変表現を抽出する。
この表現は、セマンティックマップを推定するために補助ネットワークに渡される。
これにより、着物固有のデータセット生成において、ゆるやかな服装下での意味マップ推定の堅牢性が向上する。
さらに,リアルタイム性能を維持しながらフレーム間コヒーレンスを改善するために,時間依存性を組み込んだ反復的な衣服合成フレームワークを提案する。
本手法は画像品質と時間的コヒーレンスの両方において既存の手法よりも優れていることを示すため,質的,定量的な評価を行った。
アブレーション研究は、衣服不変表現と繰り返し合成フレームワークの有効性をさらに検証した。
関連論文リスト
- HiGarment: Cross-modal Harmony Based Diffusion Model for Flat Sketch to Realistic Garment Image [20.177936034245572]
HiGarmentは、テキストおよび視覚的モダリティ間のファブリック表現を強化する新しいフレームワークである。
本研究では,フラットスケッチとテキストガイダンスを統合し,リアルな衣料品画像を生成するFlat Sketch to Realistic Garment Image (FS2RG)を提案する。
衣料品生成のための最大のオープンソースデータセットであるMulti-modal Detailed Garmentを収集する。
論文 参考訳(メタデータ) (2025-05-29T07:23:40Z) - Beyond Static Perception: Integrating Temporal Context into VLMs for Cloth Folding [6.0914269533287175]
BiFoldは、視覚的な観察から言語条件のピック・アンド・プレイス・アクションを予測するモデルである。
本稿では,その微調整と時間的コンテキストがテキストと画像領域の効果的なアライメントを可能にすることを示す。
論文 参考訳(メタデータ) (2025-05-12T14:24:03Z) - GarmentX: Autoregressive Parametric Representations for High-Fidelity 3D Garment Generation [15.345904761472106]
GarmentXは、単一の入力画像から多種多様で高忠実でウェアラブルな3D衣服を生成するための新しいフレームワークである。
本稿では,378,682個のパラメータ・イメージ・ペアからなる大規模データセットであるGarmentXデータセットを紹介する。
論文 参考訳(メタデータ) (2025-04-29T04:15:33Z) - Towards Robust and Realistic Human Pose Estimation via WiFi Signals [85.60557095666934]
WiFiベースの人間のポーズ推定は、離散的で微妙なWiFi信号を人間の骨格にブリッジする難しいタスクである。
本論文は,本問題を再検討し,(1)ドメイン間ギャップ,(2)ソース・ターゲット領域のポーズ分布の顕著な変化,(2)骨格のポーズが歪んだトポロジーを示す構造的フィデリティギャップ,の2つの重要な問題を明らかにする。
本稿では,タスクをDT-Poseと呼ばれる新しい2段階のフレームワークに書き換えることで,これらのギャップを埋める:ドメイン一貫性表現学習とトポロジ制約ポスデコーディング。
論文 参考訳(メタデータ) (2025-01-16T09:38:22Z) - IGR: Improving Diffusion Model for Garment Restoration from Person Image [6.384713545839356]
仮想試着作業の逆転であるガーメント修復は、人物画像から標準服を復元することに焦点を当てている。
そこで本研究では,正装回復のための改良された拡散モデルを提案する。
提案手法では,被写体画像から低レベル特徴と高レベル意味を独立に捉えるために,2つの衣服抽出器を用いる。
論文 参考訳(メタデータ) (2024-12-16T07:48:30Z) - FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on [73.13242624924814]
Diffusion Transformer (DiT) を用いた高忠実度仮想試行用ガーメント知覚増強技術FitDiT
布地テクスチャ抽出装置を導入し, 布地や模様, テクスチャなどのリッチな細部を, よりよく捉えられるようにした。
また,クロスカテゴリー試着中にマスク領域全体を埋める衣服の発生を防止し,衣料の正しい長さに適応する拡張緩和マスク戦略を採用した。
論文 参考訳(メタデータ) (2024-11-15T11:02:23Z) - DIG: Draping Implicit Garment over the Human Body [56.68349332089129]
暗黙の面を用いて衣服を表現するエンド・ツー・エンドの差別化可能なパイプラインを提案し, 形状を条件としたスキン場を学習し, 調音体モデルのパラメーターを推定する。
本手法により, 画像観察から身体・衣服のパラメータを復元できることがわかった。
論文 参考訳(メタデータ) (2022-09-22T08:13:59Z) - Leveraging Self-Supervision for Cross-Domain Crowd Counting [71.75102529797549]
混雑したシーンで人をカウントするための最先端の方法は、群衆密度を推定するために深いネットワークに依存します。
われわれのネットワークは、通常の画像から逆さまの実際の画像を認識できるように訓練し、その不確実性を予測する能力を組み込む。
このアルゴリズムは、推論時に余分な計算をせずに、最先端のクロスドメイン群をカウントするアルゴリズムを一貫して上回る。
論文 参考訳(メタデータ) (2021-03-30T12:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。