論文の概要: iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance
- arxiv url: http://arxiv.org/abs/2605.21431v1
- Date: Wed, 20 May 2026 17:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.810314
- Title: iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance
- Title(参考訳): iTryOn:空間的セマンティック誘導による対話型ビデオバーチャルトライオンのマスタリング
- Authors: Jun Zheng, Zhengze Xu, Mengting Chen, Jing Wang, Jinsong Lan, Xiaoyong Zhu, Kaifu Zhang, Bo Zheng, Xiaodan Liang,
- Abstract要約: Video Virtual Try-On(VVT)は、ビデオの中の人の衣服を新しい服にシームレスに置き換えることを目的としている。
対話型ビデオバーチャルトライ-オン(Interactive VVT)では,映像中の被験者が衣服に積極的に関与する。
大規模ビデオ拡散変換器上に構築された新しいフレームワークiTryOnを提案する。
- 参考スコア(独自算出の注目度): 51.550949809895975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Virtual Try-On (VVT) aims to seamlessly replace a garment on a person in a video with a new one. While existing methods have made significant strides in maintaining temporal consistency, they are predominantly confined to non-interactive scenarios where models merely showcase garments. This limitation overlooks a crucial aspect of real-world apparel presentation: active human-garment interaction. To bridge this gap, we introduce and formalize a new challenging task: Interactive Video Virtual Try-On (Interactive VVT), where subjects in the video actively engage with their clothing. This task introduces unique challenges beyond simple texture preservation, including: (1) resolving the semantic ambiguity of interactions from standard pose information, and (2) learning complex garment deformations from video where interactive moments are sparse and brief. To address these challenges, we propose iTryOn, a novel framework built upon a large-scale video diffusion Transformer. iTryOn pioneers a multi-level interaction injection mechanism to guide the generation of complex dynamics. At the spatial level, we introduce a garment-agnostic 3D hand prior to provide fine-grained guidance for precise hand-garment contact, effectively resolving spatial ambiguity. At the semantic level, iTryOn leverages global captions for overall context and time-stamped action captions for localized interactions, synchronized via our novel Action-aware Rotational Position Embedding (A-RoPE). Extensive experiments demonstrate that iTryOn not only achieves state-of-the-art performance on traditional VVT benchmarks but also establishes a commanding lead in the new interactive setting, marking a significant step towards more dynamic and controllable virtual try-on experiences.
- Abstract(参考訳): Video Virtual Try-On(VVT)は、ビデオの中の人の衣服を新しい服にシームレスに置き換えることを目的としている。
既存の手法は時間的一貫性を維持するために大きな進歩を遂げてきたが、それらは主に、モデルが単に衣服を展示する非対話的なシナリオに限られている。
この制限は、実世界のアパレルプレゼンテーションにおいて重要な側面であるアクティブヒューマン・ガーメント・インタラクションを見落としている。
このギャップを埋めるために、我々は新しい挑戦的なタスク、Interactive Video Virtual Try-On (Interactive VVT)を導入し、フォーマル化する。
本課題は,(1)標準ポーズ情報からインタラクションの意味的あいまいさを解消すること,(2)インタラクティブなモーメントがスパースで簡潔なビデオから複雑な衣服の変形を学習すること,など,単純なテクスチャ保存を超えてユニークな課題を導入する。
これらの課題に対処するために,大規模なビデオ拡散変換器上に構築された新しいフレームワークiTryOnを提案する。
iTryOnは、複雑なダイナミクスの生成を導くためのマルチレベルインタラクションインジェクションメカニズムのパイオニアだ。
空間レベルでは,空間的あいまいさを効果的に解消する,精密な手着接触のためのきめ細かいガイダンスを提供する前に,衣服に依存しない3D手を導入する。
セマンティックレベルでは、iTryOnは、グローバルキャプションをコンテキスト全体と時間スタンプされたアクションキャプションに利用し、ローテーション位置埋め込み(A-RoPE)によって同期する。
大規模な実験では、iTryOnは従来のVVTベンチマークで最先端のパフォーマンスを達成するだけでなく、新たなインタラクティブな設定においてコマンドリードを確立し、よりダイナミックで制御可能な仮想トライオンエクスペリエンスに向けた重要なステップをマークしている。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on [28.66545985357718]
VVT(Virtual Try-On)は、連続するフレームにわたって自然に現れる衣服を合成し、それらのダイナミクスと人間の手がかりとの相互作用の両方をキャプチャすることを目的としている。
既存のVVT法はまだ不適切な衣服の忠実さと時間的整合性に悩まされている。
MagicTryOnは、衣料制約付き仮想試着のための拡散変換器ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T15:22:02Z) - Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction [142.66410908560582]
Video Virtual try-onは、被験者に特定の衣服を装着したビデオフィギュアをシームレスに着ることを目的としている。
ビデオ仮想試行のための動的ポーズ相互作用を探索するために拡散モデルを活用するために,動的ポーズ相互作用拡散モデル(DPIDM)を提案する。
DPIDMは、時間的整合性を高めるために、連続フレーム間の時間的規則化された注意損失に乗じる。
論文 参考訳(メタデータ) (2025-05-22T17:52:34Z) - DynVFX: Augmenting Real Videos with Dynamic Content [26.022834306983906]
本稿では,動的コンテンツを新たに生成した実世界の映像を拡大する手法を提案する。
入力ビデオと、所望の内容を記述した簡単なテキスト命令が与えられた場合、本手法は動的オブジェクトや複雑なシーン効果を合成する。
新しいコンテンツの位置、外観、動きは、元の映像にシームレスに統合される。
論文 参考訳(メタデータ) (2025-02-05T21:14:55Z) - RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency [26.410982262831975]
RealVVTは、動的ビデオコンテキスト内の安定性とリアリズムを高めるために設計されたフォトリアリスティックビデオ仮想トライオンフレームワークである。
我々のアプローチは、シングルイメージとビデオVTOの両方のタスクにおいて、既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-15T09:22:38Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。