論文の概要: TripVVT: A Large-Scale Triplet Dataset and a Coarse-Mask Baseline for In-the-Wild Video Virtual Try-On
- arxiv url: http://arxiv.org/abs/2604.27958v1
- Date: Thu, 30 Apr 2026 14:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.149516
- Title: TripVVT: A Large-Scale Triplet Dataset and a Coarse-Mask Baseline for In-the-Wild Video Virtual Try-On
- Title(参考訳): TripVVT: 大規模トリプルトデータセットと粗いマスクベースライン
- Authors: Dingbao Shao, Song Wu, Shenyi Wang, Ye Wang, Ziheng Tang, Fei Liu, Jiang Lin, Xinyu Chen, Qian Wang, Ying Tai, Jian Yang, Zili Yi,
- Abstract要約: TripVVTは、壊れやすいマスクをシンプルで安定した人間のマスクに置き換えるフレームワークである。
TripVVTは、優れたビデオ品質と衣服の忠実さを実現し、また、課題となるビデオの一般化を著しく改善する。
- 参考スコア(独自算出の注目度): 36.1581419300859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the scarcity of large-scale in-the-wild triplet data and the improper use of masks, the performance of video virtual try-on models remains limited. In this paper, we first introduce **TripVVT-10K**, the largest and most diverse in-the-wild triplet dataset to date, providing explicit video-level cross-garment supervision that existing video datasets lack. Built upon this resource, we develop **TripVVT**, a Diffusion Transformer-based framework that replaces fragile garment masks with a simple, stable human-mask prior, enabling reliable background preservation while remaining robust to real-world motion, occlusion, and cluttered scenes. To support comprehensive evaluation, we further establish **TripVVT-Bench**, a 100-case benchmark covering diverse garments, complex environments, and multi-person scenarios, with metrics spanning video quality, try-on fidelity, background consistency, and temporal coherence. Compared to state-of-the-art academic and commercial systems, TripVVT achieves superior video quality and garment fidelity while markedly improving generalization to challenging in-the-wild videos. We publicly release the dataset and benchmark, which we believe provide a solid foundation for advancing controllable, realistic, and temporally stable video virtual try-on.
- Abstract(参考訳): 大規模な3重項データの不足とマスクの不適切な使用のため、ビデオ仮想トライオンモデルの性能は依然として限られている。
本稿では,これまでで最大かつ最も多様な3重項データセットである**TripVT-10K*を紹介する。
このリソースをベースにした**TripVVT*は、脆弱なマスクをシンプルで安定したヒューマンマスクに置き換え、実世界の動き、オクルージョン、散らばったシーンに頑健なまま、信頼性の高い背景保存を可能にする拡散トランスフォーマーベースのフレームワークである。
TripVVT-Bench**は、さまざまな衣服、複雑な環境、マルチパーソンシナリオをカバーする100ケースのベンチマークであり、ビデオの品質、試行錯誤、背景の一貫性、時間的コヒーレンスにまたがるメトリクスである。
最先端の学術・商業システムと比較すると、TripVVTは優れた画質と衣料品の忠実さを達成し、また、最先端の動画に挑戦する一般化を著しく改善している。
私たちはデータセットとベンチマークを公開し、制御可能で現実的で時間的に安定したビデオバーチャルトライオンを進めるための確かな基盤を提供すると信じています。
関連論文リスト
- SceneScribe-1M: A Large-Scale Video Dataset with Comprehensive Geometric and Semantic Annotations [88.8747004592363]
SceneScribe-1Mは新しい大規模多時間ビデオデータセットである。
そこには100万本のビデオが含まれており、それぞれに詳細なテキスト記述、正確なパラメータ、深度マップ、一貫性のある3Dポイントトラックなどが含まれている。
SceneScribe-1Mの汎用性と価値は、単眼深度推定、シーン再構成動的点追跡、テキスト・ビデオ合成などの生成タスク、カメラ制御の有無にかかわらず、幅広い下流タスクのベンチマークを確立することで示される。
論文 参考訳(メタデータ) (2026-04-09T08:59:33Z) - MoCha:End-to-End Video Character Replacement without Structural Guidance [14.573557179926079]
MoChaは、ビデオキャラクタをユーザが提供するアイデンティティに置き換えるためのフレームワークである。
条件対応のRoPEを導入し,RLをベースとしたポストトレーニングステージを採用する。
我々は,Unreal Engine 5 (UE5)で構築された高忠実なレンダリングデータセット,現在のポートレートアニメーション技術で合成された表現駆動データセット,既存のビデオマスクペアから派生した拡張データセットの3つの特別なデータセットを設計する。
論文 参考訳(メタデータ) (2026-01-13T14:10:34Z) - The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection [90.30501870268911]
KeyTailorは、リアルな試用ビデオのための新しいフレームワークだ。
インストラクション誘導サンプリング戦略を用いて、入力ビデオから情報フレームをフィルタリングする。
我々のデータセットViT-HDは、15,070の高品質なビデオサンプルを810*1080の解像度で構成し、多様な衣服をカバーしている。
論文 参考訳(メタデータ) (2025-12-23T13:15:31Z) - Generative Video Matting [57.186684844156595]
ビデオ・マッティングは、伝統的に高品質な地上データがないために制限されてきた。
既存のビデオ・マッティング・データセットのほとんどは、人間が注釈付けした不完全なアルファとフォアグラウンドのアノテーションのみを提供する。
本稿では,事前学習したビデオ拡散モデルから,よりリッチな事前処理を効果的に活用できる新しいビデオマッチング手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T12:18:55Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on [28.66545985357718]
VVT(Virtual Try-On)は、連続するフレームにわたって自然に現れる衣服を合成し、それらのダイナミクスと人間の手がかりとの相互作用の両方をキャプチャすることを目的としている。
既存のVVT法はまだ不適切な衣服の忠実さと時間的整合性に悩まされている。
MagicTryOnは、衣料制約付き仮想試着のための拡散変換器ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T15:22:02Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。