論文の概要: Once Is Enough: Lightweight DiT-Based Video Virtual Try-On via One-Time Garment Appearance Injection
- arxiv url: http://arxiv.org/abs/2510.07654v1
- Date: Thu, 09 Oct 2025 01:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.798573
- Title: Once Is Enough: Lightweight DiT-Based Video Virtual Try-On via One-Time Garment Appearance Injection
- Title(参考訳): ライトウェイトなDiTベースのバーチャル・トライオンがワンタイムガーメント・インジェクションで実現
- Authors: Yanjie Pan, Qingdong He, Lidong Wang, Bo Peng, Mingmin Chi,
- Abstract要約: Video Virtual try-onは、ビデオの中の人の服をターゲットの服に置き換えることを目的としている。
本稿では,OIE(Once is Enough)を提案する。
- 参考スコア(独自算出の注目度): 21.00674585489938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video virtual try-on aims to replace the clothing of a person in a video with a target garment. Current dual-branch architectures have achieved significant success in diffusion models based on the U-Net; however, adapting them to diffusion models built upon the Diffusion Transformer remains challenging. Initially, introducing latent space features from the garment reference branch requires adding or modifying the backbone network, leading to a large number of trainable parameters. Subsequently, the latent space features of garments lack inherent temporal characteristics and thus require additional learning. To address these challenges, we propose a novel approach, OIE (Once is Enough), a virtual try-on strategy based on first-frame clothing replacement: specifically, we employ an image-based clothing transfer model to replace the clothing in the initial frame, and then, under the content control of the edited first frame, utilize pose and mask information to guide the temporal prior of the video generation model in synthesizing the remaining frames sequentially. Experiments show that our method achieves superior parameter efficiency and computational efficiency while still maintaining leading performance under these constraints.
- Abstract(参考訳): Video Virtual try-onは、ビデオの中の人の服をターゲットの服に置き換えることを目的としている。
現在のデュアルブランチアーキテクチャは、U-Netに基づく拡散モデルにおいて大きな成功を収めているが、Diffusion Transformer上に構築された拡散モデルにそれらを適用することは依然として困難である。
当初、衣服参照ブランチから潜在空間機能を導入するには、バックボーンネットワークの追加や変更が必要であり、多くのトレーニング可能なパラメータが導かれる。
その後、衣服の潜伏空間の特徴には時間的特性が欠如しており、さらなる学習が必要である。
これらの課題に対処するため,第1フレームの衣料品交換に基づく仮想試行戦略であるOIE(Once is Enough)を提案する。具体的には,第1フレームの衣料品交換モデルを用いて,編集した第1フレームのコンテンツ制御の下で,ポーズ情報とマスク情報を用いて,映像生成モデルの時間的先行を逐次合成する。
実験により,本手法は,これらの制約下での先行性能を維持しつつ,パラメータ効率と計算効率に優れることを示した。
関連論文リスト
- MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on [28.66545985357718]
VVT(Virtual Try-On)は、連続するフレームにわたって自然に現れる衣服を合成し、それらのダイナミクスと人間の手がかりとの相互作用の両方をキャプチャすることを目的としている。
既存のVVT法はまだ不適切な衣服の忠実さと時間的整合性に悩まされている。
MagicTryOnは、衣料制約付き仮想試着のための拡散変換器ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T15:22:02Z) - Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism [52.9091817868613]
ビデオの試用は、その膨大な現実世界の潜在能力にとって有望な分野だ。
これまでの研究は主に、製品服のイメージを単純な人間のポーズでビデオに移すことに重点を置いてきた。
本稿では,Diffusion Transformer(DiT)に基づく新しいビデオトライオンフレームワークであるDynamic Try-Onを提案する。
論文 参考訳(メタデータ) (2024-12-13T03:20:53Z) - FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on [73.13242624924814]
Diffusion Transformer (DiT) を用いた高忠実度仮想試行用ガーメント知覚増強技術FitDiT
布地テクスチャ抽出装置を導入し, 布地や模様, テクスチャなどのリッチな細部を, よりよく捉えられるようにした。
また,クロスカテゴリー試着中にマスク領域全体を埋める衣服の発生を防止し,衣料の正しい長さに適応する拡張緩和マスク戦略を採用した。
論文 参考訳(メタデータ) (2024-11-15T11:02:23Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。