論文の概要: Video Virtual Try-on with Conditional Diffusion Transformer Inpainter
- arxiv url: http://arxiv.org/abs/2506.21270v1
- Date: Thu, 26 Jun 2025 13:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.107722
- Title: Video Virtual Try-on with Conditional Diffusion Transformer Inpainter
- Title(参考訳): 条件付き拡散変圧器を用いた仮想試行
- Authors: Cheng Zou, Senlin Cheng, Bolei Xu, Dandan Zheng, Xiaobo Li, Jingdong Chen, Ming Yang,
- Abstract要約: Video Virtual try-onは、連続したビデオフレーム内の被服を対象者にフィットさせることを目的としている。
近年の拡散型ビデオ試行法は, ほとんどないが, 類似の解法と一致している。
本稿では,VTI(Video Try-on Inpainter)を提案する。
- 参考スコア(独自算出の注目度): 27.150975905047968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video virtual try-on aims to naturally fit a garment to a target person in consecutive video frames. It is a challenging task, on the one hand, the output video should be in good spatial-temporal consistency, on the other hand, the details of the given garment need to be preserved well in all the frames. Naively using image-based try-on methods frame by frame can get poor results due to severe inconsistency. Recent diffusion-based video try-on methods, though very few, happen to coincide with a similar solution: inserting temporal attention into image-based try-on model to adapt it for video try-on task, which have shown improvements but there still exist inconsistency problems. In this paper, we propose ViTI (Video Try-on Inpainter), formulate and implement video virtual try-on as a conditional video inpainting task, which is different from previous methods. In this way, we start with a video generation problem instead of an image-based try-on problem, which from the beginning has a better spatial-temporal consistency. Specifically, at first we build a video inpainting framework based on Diffusion Transformer with full 3D spatial-temporal attention, and then we progressively adapt it for video garment inpainting, with a collection of masking strategies and multi-stage training. After these steps, the model can inpaint the masked garment area with appropriate garment pixels according to the prompt with good spatial-temporal consistency. Finally, as other try-on methods, garment condition is added to the model to make sure the inpainted garment appearance and details are as expected. Both quantitative and qualitative experimental results show that ViTI is superior to previous works.
- Abstract(参考訳): Video Virtual try-onは、連続したビデオフレームで被服を対象者に自然にフィットさせることを目的としている。
一方、出力ビデオは、空間的・時間的整合性が良好であるべきであり、一方、与えられた衣服の詳細は、すべてのフレームで適切に保存する必要がある。
フレーム単位で画像ベースの試行法をネーティブに使用すると,不整合が激しくなるため,結果が低下する可能性がある。
画像ベーストライオンモデルに時間的注意を注ぐことで、ビデオトライオンタスクに適応する。
本稿では,VTI(Video Try-on Inpainter)を提案し,従来の手法と異なる条件付きビデオインペインティングタスクとしてビデオ仮想トライオンを定式化し,実装する。
このようにして、画像ベースの試行問題ではなく、ビデオ生成の問題から始める。
具体的には、まず、Diffusion Transformerをベースとした3次元空間空間的注意を生かした映像インペインティングフレームワークを構築し、その後、マスキング戦略の収集と多段階トレーニングにより、ビデオウェアインペインティングに段階的に適応する。
これらのステップの後、モデルでは、空間的時間的整合性の良いプロンプトに応じて、適切な衣服画素でマスクされた衣服領域を塗布することができる。
最後に、他の試着方法と同様に、衣料条件をモデルに追加し、塗布された衣服の外観や細部が期待されるようにした。
定量的および定性的な実験結果は、ViTIが以前の研究より優れていることを示している。
関連論文リスト
- SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models [10.66567645920237]
本研究の目的は,被服が時間的整合性を維持しつつ着ている新しい映像を合成することである。
我々は,映像仮想試着を条件付き映像塗装作業として再認識し,衣服を入力条件として機能させる。
具体的には,時間的注意層を取り入れた画像拡散モデルを構築し,時間的コヒーレンスを改善する。
論文 参考訳(メタデータ) (2024-12-13T14:50:26Z) - Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models [56.691967706131]
我々は、フレームを2次元空間における連続関数と見なし、ビデオは異なるフレーム間の連続的なワープ変換の列と見なす。
この観点から,画像上でのみ関数空間拡散モデルを訓練し,時間的に相関した逆問題を解くことができる。
本手法により,ビデオ逆問題を解決するために,安定拡散XLのような最先端の潜伏拡散モデルを展開することができる。
論文 参考訳(メタデータ) (2024-10-21T16:19:34Z) - Replace Anyone in Videos [82.37852750357331]
ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。
我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。
提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
論文 参考訳(メタデータ) (2024-09-30T03:27:33Z) - Video Diffusion Models are Strong Video Inpainter [14.402778136825642]
本稿では,FFF-VDI (First Frame Filling Video Diffusion Inpainting Model) を提案する。
我々は、将来のフレームのノイズ潜時情報を伝播して、第1フレームのノイズ潜時符号のマスク領域を埋める。
次に,事前学習した画像間拡散モデルを微調整し,インペイント映像を生成する。
論文 参考訳(メタデータ) (2024-08-21T08:01:00Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。