論文の概要: CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation
- arxiv url: http://arxiv.org/abs/2501.11325v1
- Date: Mon, 20 Jan 2025 08:09:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:25:07.858879
- Title: CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation
- Title(参考訳): CatV2TON: 時間結合による視覚ベース仮想トライオン用拡散変換器の開発
- Authors: Zheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang,
- Abstract要約: 視覚に基づく仮想試行(V2TON)方式であるCatV2TONを導入する。
CatV2TONは、衣服と人物の入力を時間的に結合し、画像とビデオのデータセットを混合してトレーニングすることにより、堅牢な試着性能を実現する。
また、背面フレームをフィルタリングし、3Dマスクのスムース化を施した精巧なビデオ試行データセットViViD-Sを提案する。
- 参考スコア(独自算出の注目度): 75.10635392993748
- License:
- Abstract: Virtual try-on (VTON) technology has gained attention due to its potential to transform online retail by enabling realistic clothing visualization of images and videos. However, most existing methods struggle to achieve high-quality results across image and video try-on tasks, especially in long video scenarios. In this work, we introduce CatV2TON, a simple and effective vision-based virtual try-on (V2TON) method that supports both image and video try-on tasks with a single diffusion transformer model. By temporally concatenating garment and person inputs and training on a mix of image and video datasets, CatV2TON achieves robust try-on performance across static and dynamic settings. For efficient long-video generation, we propose an overlapping clip-based inference strategy that uses sequential frame guidance and Adaptive Clip Normalization (AdaCN) to maintain temporal consistency with reduced resource demands. We also present ViViD-S, a refined video try-on dataset, achieved by filtering back-facing frames and applying 3D mask smoothing for enhanced temporal consistency. Comprehensive experiments demonstrate that CatV2TON outperforms existing methods in both image and video try-on tasks, offering a versatile and reliable solution for realistic virtual try-ons across diverse scenarios.
- Abstract(参考訳): VTON(Virtual try-on)技術は、画像やビデオのリアルな衣料品の視覚化を可能にすることで、オンライン小売を変革する可能性から注目を集めている。
しかし、既存のほとんどの手法は、特に長いビデオシナリオにおいて、画像やビデオの試行作業における高品質な結果を達成するのに苦労している。
本研究では,単一の拡散トランスフォーマーモデルを用いて,画像とビデオの両方の試行タスクをサポートする,シンプルで効果的な視覚ベースの仮想試行(V2TON)手法であるCatV2TONを紹介する。
CatV2TONは、衣服と人の入力を時間的に結合し、画像とビデオのデータセットを混ぜてトレーニングすることにより、静的および動的設定間で堅牢なトライオンパフォーマンスを実現する。
本稿では,時間的整合性を維持するために,逐次フレームガイダンスと適応クリップ正規化(AdaCN)を用いたクリップベース推論手法を提案する。
また,背面フレームをフィルタリングし,時間的一貫性を高めるために3次元マスクスムーシングを適用することで,改良されたビデオ試行データセットViViD-Sを提案する。
総合的な実験により、CatV2TONは、画像とビデオの両方の試行作業において既存の手法よりも優れており、多様なシナリオにわたる現実的な仮想試行のための汎用的で信頼性の高いソリューションを提供する。
関連論文リスト
- WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction [88.70116693750452]
テキスト誘導ビデオ予測(TVP)は、命令に従って、初期フレームから将来のフレームの動きを予測する。
従来のTVP方式では, 安定拡散法を応用して大きなブレークスルーを達成している。
我々は、初期フレームとテキスト命令に基づいて、将来のビデオ状態を予測するためのMLLM(Multi-Modal Large Language Model)を導入する。
論文 参考訳(メタデータ) (2024-06-10T17:02:08Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video [15.952896909797728]
ビデオ領域に画像モデルを適用することは、ビデオ認識タスクを解くための効率的なパラダイムとして現れている。
最近の研究は、パラメータ効率のよい画像から映像への適応に焦点を移している。
画像変換器をビデオ認識タスクに転送する新たな適応パラダイム(ZeroI2V)を提案する。
論文 参考訳(メタデータ) (2023-10-02T16:41:20Z) - Make It Move: Controllable Image-to-Video Generation with Text
Descriptions [69.52360725356601]
TI2Vタスクは、静的画像とテキスト記述からビデオを生成することを目的としている。
これらの課題に対処するために,革新的なアンカー構造を持つモーションアンカー型ビデオGEnerator (MAGE) を提案する。
データセットで行った実験は、MAGEの有効性を検証するとともに、TI2Vタスクの魅力を示す。
論文 参考訳(メタデータ) (2021-12-06T07:00:36Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。