論文の概要: PEMF-VVTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm
- arxiv url: http://arxiv.org/abs/2412.03021v1
- Date: Wed, 04 Dec 2024 04:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:09:45.318171
- Title: PEMF-VVTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm
- Title(参考訳): PEMF-VVTO:マスクフリーパラダイムによるポイント強化ビデオバーチャルトライオン
- Authors: Tianyu Chang, Xiaohao Chen. Zhichao Wei, Xuanpu Zhang, Qing-Guo Chen, Weihua Luo, Xun Yang,
- Abstract要約: Video Virtual Try-onは、ソースパーソンビデオ内のセマンティックに整列した試着領域に衣料イメージを流用することを目的としている。
以前の手法では、インペイントマスクを利用して、元のビデオの原着を除去していた。
新たなPEMF-VVTO(PEMF-VVTO)を提案する。
- 参考スコア(独自算出の注目度): 20.422348105784025
- License:
- Abstract: Video Virtual Try-on aims to fluently transfer the garment image to a semantically aligned try-on area in the source person video. Previous methods leveraged the inpainting mask to remove the original garment in the source video, thus achieving accurate garment transfer on simple model videos. However, when these methods are applied to realistic video data with more complex scene changes and posture movements, the overly large and incoherent agnostic masks will destroy the essential spatial-temporal information of the original video, thereby inhibiting the fidelity and coherence of the try-on video. To alleviate this problem, %avoid the inherent deficiencies of mask-based try-on paradigm, we propose a novel point-enhanced mask-free video virtual try-on framework (PEMF-VVTO). Specifically, we first leverage the pre-trained mask-based try-on model to construct large-scale paired training data (pseudo-person samples). Training on these mask-free data enables our model to perceive the original spatial-temporal information while realizing accurate garment transfer. Then, based on the pre-acquired sparse frame-cloth and frame-frame point alignments, we design the point-enhanced spatial attention (PSA) and point-enhanced temporal attention (PTA) to further improve the try-on accuracy and video coherence of the mask-free model. Concretely, PSA explicitly guides the garment transfer to desirable locations through the sparse semantic alignments of video frames and cloth. PTA exploits the temporal attention on sparse point correspondences to enhance the smoothness of generated videos. Extensive qualitative and quantitative experiments clearly illustrate that our PEMF-VVTO can generate more natural and coherent try-on videos than existing state-of-the-art methods.
- Abstract(参考訳): Video Virtual Try-onは、ソースパーソンビデオ内のセマンティックに整列した試着領域に衣料イメージを流用することを目的としている。
従来の手法では、インペイントマスクを利用して、ソースビデオの原着を除去し、単純なモデルビデオ上で正確な衣服転送を実現していた。
しかし、これらの手法がより複雑なシーン変化や姿勢運動を伴う現実的な映像データに適用された場合、過度に大きく不整合なアグノスティックマスクは、オリジナルビデオの本質的な時空間情報を破壊し、トライオンビデオの忠実さとコヒーレンスを阻害する。
この問題を緩和するため,マスクベースのトライオンパラダイムの固有の欠陥を回避し,PEMF-VVTO(point-enhanced mask-free video virtual try-on framework)を提案する。
具体的には、まず、事前学習したマスクベースの試行モデルを利用して、大規模なペアトレーニングデータ(擬人サンプル)を構築する。
これらのマスクのないデータをトレーニングすることで、正確な衣服の移動を実現しつつ、元の空間的時間的情報を知覚することができる。
そして,事前に取得したスパース・フレーム・クロスとフレーム・フレーム・ポイントアライメントに基づいて,マスクフリーモデルの試行精度とビデオコヒーレンスを改善するために,PSAとPTAを設計する。
具体的には、PSAは、ビデオフレームと布のスパースなセマンティックアライメントを通じて、衣服の移動を望ましい場所に明示的に誘導する。
PTAはスパースポイント対応の時間的注意を生かし、生成されたビデオの滑らかさを高める。
我々のPEMF-VVTOは、既存の最先端の手法よりも、より自然で一貫性のあるトライオンビデオを生成することができることを明らかに示しています。
関連論文リスト
- Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。
具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。
また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文 参考訳(メタデータ) (2024-09-05T13:23:52Z) - Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Unsupervised Region-Growing Network for Object Segmentation in Atmospheric Turbulence [10.8380383565446]
大気乱流による動画中の移動物体のセグメンテーションに対する教師なしのアプローチを提案する。
まず、高信頼で動く物体の小さな集合を識別し、その後、これらの種子から徐々に前景マスクを成長させ、すべての動く物体を分割する。
その結果, 移動物体のセグメンテーションにおける精度は良好であり, 様々な乱流強度を持つ長距離ビデオに対してロバストであることがわかった。
論文 参考訳(メタデータ) (2023-11-06T22:17:18Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。
我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文 参考訳(メタデータ) (2020-07-20T16:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。