論文の概要: Eevee: Towards Close-up High-resolution Video-based Virtual Try-on
- arxiv url: http://arxiv.org/abs/2511.18957v1
- Date: Mon, 24 Nov 2025 10:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.152331
- Title: Eevee: Towards Close-up High-resolution Video-based Virtual Try-on
- Title(参考訳): Eevee: 高解像度ビデオベースのバーチャルトライオンのクローズアップを目指す
- Authors: Jianhao Zeng, Yancheng Bai, Ruidong Chen, Xuanpu Zhang, Lei Sun, Dongyang Jin, Ryan Xu, Nannan Zhang, Dan Song, Xiangxiang Chu,
- Abstract要約: ビデオベースの仮想試行のための高解像度データセットを提案する。
このデータセットには、実際の人間のモデルのフルショットおよびクローズアップトライオンビデオが含まれている。
テクスチャと構造の両方の保存を定量化する新しい衣服整合度基準VGIDを提案する。
- 参考スコア(独自算出の注目度): 23.37783900582483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video virtual try-on technology provides a cost-effective solution for creating marketing videos in fashion e-commerce. However, its practical adoption is hindered by two critical limitations. First, the reliance on a single garment image as input in current virtual try-on datasets limits the accurate capture of realistic texture details. Second, most existing methods focus solely on generating full-shot virtual try-on videos, neglecting the business's demand for videos that also provide detailed close-ups. To address these challenges, we introduce a high-resolution dataset for video-based virtual try-on. This dataset offers two key features. First, it provides more detailed information on the garments, which includes high-fidelity images with detailed close-ups and textual descriptions; Second, it uniquely includes full-shot and close-up try-on videos of real human models. Furthermore, accurately assessing consistency becomes significantly more critical for the close-up videos, which demand high-fidelity preservation of garment details. To facilitate such fine-grained evaluation, we propose a new garment consistency metric VGID (Video Garment Inception Distance) that quantifies the preservation of both texture and structure. Our experiments validate these contributions. We demonstrate that by utilizing the detailed images from our dataset, existing video generation models can extract and incorporate texture features, significantly enhancing the realism and detail fidelity of virtual try-on results. Furthermore, we conduct a comprehensive benchmark of recent models. The benchmark effectively identifies the texture and structural preservation problems among current methods.
- Abstract(参考訳): ビデオバーチャルトライオン技術は、ファッションeコマースでマーケティングビデオを作成するためのコスト効率の良いソリューションを提供する。
しかし、その実践的採用は2つの限界によって妨げられている。
第一に、現在の仮想試行データセットの入力としての1つの衣服画像への依存は、現実的なテクスチャの詳細を正確にキャプチャすることを制限する。
第2に、既存のほとんどの方法は、詳細なクローズアップを提供するビデオに対するビジネスの要求を無視して、フルショットの仮想トライオンビデオの生成のみに焦点を当てています。
これらの課題に対処するために,ビデオベースの仮想試行のための高解像度データセットを提案する。
このデータセットには2つの重要な特徴がある。
まず、衣服に関するより詳細な情報を提供し、その中には、詳細なクローズアップとテキスト記述を含む高忠実な画像が含まれており、第二に、実際の人間のモデルのフルショットとクローズアップの試着ビデオが含まれている。
さらに, クローズアップビデオでは, 衣服の細部を高忠実に保存する必要があるため, 整合性評価が著しく重要となる。
このようなきめ細かい評価を容易にするために,テクスチャと構造の両方の保存を定量化する,新しい衣服整合度基準VGID(Video Garment Inception Distance)を提案する。
我々の実験はこれらの貢献を検証した。
既存の映像生成モデルでは,データセットからの詳細な画像を利用してテクスチャの特徴を抽出し,組み込むことができ,仮想試行の結果の現実性と詳細性を大幅に向上させることができる。
さらに,最近のモデルに関する総合的なベンチマークを実施している。
このベンチマークは, 現行手法のテクスチャと構造保存の問題を効果的に同定する。
関連論文リスト
- Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency [26.410982262831975]
RealVVTは、動的ビデオコンテキスト内の安定性とリアリズムを高めるために設計されたフォトリアリスティックビデオ仮想トライオンフレームワークである。
我々のアプローチは、シングルイメージとビデオVTOの両方のタスクにおいて、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-15T09:22:38Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。