Fugu-MT 論文翻訳(概要): PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

論文の概要: PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

arxiv url: http://arxiv.org/abs/2412.03021v3
Date: Thu, 13 Mar 2025 14:22:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 17:08:08.136668
Title: PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm
Title（参考訳）: PEMF-VTO:mask-free Paradigmによるポイント強化ビデオバーチャルトライオン
Authors: Tianyu Chang, Xiaohao Chen, Zhichao Wei, Xuanpu Zhang, Qing-Guo Chen, Weihua Luo, Peipei Song, Xun Yang,
Abstract要約: Video Virtual Try-onは、ビデオ内の対象人物に参照服をシームレスに転送することを目的としている。既存の手法は通常、試着領域を定義するために塗装マスクに依存している。そこで我々は,PEMF-VTO(Point-Enhanced Mask-Free Video Virtual Try-On)を提案する。
参考スコア（独自算出の注目度）: 21.1235226974745
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video Virtual Try-on aims to seamlessly transfer a reference garment onto a target person in a video while preserving both visual fidelity and temporal coherence. Existing methods typically rely on inpainting masks to define the try-on area, enabling accurate garment transfer for simple scenes (e.g., in-shop videos). However, these mask-based approaches struggle with complex real-world scenarios, as overly large and inconsistent masks often destroy spatial-temporal information, leading to distorted results. Mask-free methods alleviate this issue but face challenges in accurately determining the try-on area, especially for videos with dynamic body movements. To address these limitations, we propose PEMF-VTO, a novel Point-Enhanced Mask-Free Video Virtual Try-On framework that leverages sparse point alignments to explicitly guide garment transfer. Our key innovation is the introduction of point-enhanced guidance, which provides flexible and reliable control over both spatial-level garment transfer and temporal-level video coherence. Specifically, we design a Point-Enhanced Transformer (PET) with two core components: Point-Enhanced Spatial Attention (PSA), which uses frame-cloth point alignments to precisely guide garment transfer, and Point-Enhanced Temporal Attention (PTA), which leverages frame-frame point correspondences to enhance temporal coherence and ensure smooth transitions across frames. Extensive experiments demonstrate that our PEMF-VTO outperforms state-of-the-art methods, generating more natural, coherent, and visually appealing try-on videos, particularly for challenging in-the-wild scenarios.
Abstract（参考訳）: Video Virtual Try-onは、視覚的忠実度と時間的コヒーレンスの両方を保ちながら、ビデオ中の対象人物に参照服をシームレスに転送することを目的としている。既存の方法は、通常、試着領域を定義するために塗装マスクを頼りにしており、単純なシーン(例えば、インショップビデオ)の正確な衣服の移動を可能にしている。しかし、これらのマスクベースのアプローチは複雑な現実世界のシナリオに苦しむため、過度に大きく、一貫性のないマスクはしばしば空間的時間的情報を破壊し、歪んだ結果をもたらす。マスクのない方法はこの問題を緩和するが、特にダイナミックな身体の動きを持つビデオにおいて、試行領域を正確に決定する上で困難に直面している。 PEMF-VTOは,スパースポイントアライメントを利用して衣服の移動を明示的にガイドする,新しいPEMF-VTOフレームワークである。我々の重要な革新は、空間レベルの衣服転送と時間レベルのビデオコヒーレンスの両方を柔軟かつ確実に制御できるポイント強化ガイダンスの導入である。具体的には,PSA(Point-Enhanced Spatial Attention)とPTA(Point-Enhanced Temporal Attention)の2つのコアコンポーネントを設計し,時間的コヒーレンスを高め,フレーム間のスムーズな遷移を保証する。大規模な実験により、PEMF-VTOは最先端の手法より優れ、より自然でコヒーレントで視覚的に魅力的なトライオンビデオを生成します。

関連論文リスト

Video Virtual Try-on with Conditional Diffusion Transformer Inpainter [27.150975905047968]
Video Virtual try-onは、連続したビデオフレーム内の被服を対象者にフィットさせることを目的としている。近年の拡散型ビデオ試行法は, ほとんどないが, 類似の解法と一致している。本稿では,VTI(Video Try-on Inpainter)を提案する。
論文参考訳（メタデータ） (2025-06-26T13:56:27Z)
MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on [16.0505428363005]
大規模なビデオ拡散変換器上に構築された仮想仮想試行フレームワークMagicTryOnを提案する。我々は、U-Netアーキテクチャを拡散変換器に置き換え、ビデオの服飾一貫性をモデル化するために完全な自己アテンションを組み合わせる。提案手法は,既存のSOTA法を総合評価で上回り,現場シナリオに一般化する。
論文参考訳（メタデータ） (2025-05-27T15:22:02Z)
3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models [12.949009540192389]
3DV-TONは、高忠実で時間的に一貫したビデオトライオン結果を生成するための新しいフレームワークである。提案手法では, フレームレベルの明示的なガイダンスとして, アニマタブルなテクスチャ付き3Dメッシュを用いる。ビデオトライオン研究を進めるために,衣類の種類やシナリオが多種多様である130本のビデオを含む高精細度ベンチマークデータセットHR-VVTを紹介する。
論文参考訳（メタデータ） (2025-04-24T10:12:40Z)
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [66.66226299852559]
VideoAnydoorは、高忠実度ディテール保存と正確なモーションコントロールを備えたゼロショットビデオオブジェクト挿入フレームワークである。詳細な外観を保ちながら、微粒な動き制御をサポートするため、我々は画素ワーパーを設計する。
論文参考訳（メタデータ） (2025-01-02T18:59:54Z)
Replace Anyone in Videos [82.37852750357331]
ReplaceAnyoneフレームワークは、複雑な背景を特徴とする、局所的な人間の置換と挿入に焦点を当てたフレームワークである。我々は,このタスクを,一貫したエンド・ツー・エンドビデオ拡散アーキテクチャを用いて,ポーズガイダンスを用いた画像条件付きビデオ塗装パラダイムとして定式化する。提案されたReplaceAnyoneは従来の3D-UNetベースモデルだけでなく、Wan2.1のようなDiTベースのビデオモデルにもシームレスに適用できる。
論文参考訳（メタデータ） (2024-09-30T03:27:33Z)
Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文参考訳（メタデータ） (2024-09-05T13:23:52Z)
Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文参考訳（メタデータ） (2024-08-01T17:58:19Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文参考訳（メタデータ） (2023-12-05T18:05:59Z)
Unsupervised Region-Growing Network for Object Segmentation in Atmospheric Turbulence [10.8380383565446]
大気乱流による動画中の移動物体のセグメンテーションに対する教師なしのアプローチを提案する。まず、高信頼で動く物体の小さな集合を識別し、その後、これらの種子から徐々に前景マスクを成長させ、すべての動く物体を分割する。その結果, 移動物体のセグメンテーションにおける精度は良好であり, 様々な乱流強度を持つ長距離ビデオに対してロバストであることがわかった。
論文参考訳（メタデータ） (2023-11-06T22:17:18Z)
Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。 SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文参考訳（メタデータ） (2023-05-23T17:59:46Z)
Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-05-13T12:31:37Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文参考訳（メタデータ） (2022-10-12T11:19:55Z)
DeViT: Deformed Vision Transformers in Video Inpainting [59.73019717323264]
Deformed Patch-based Homography (DePtH)を導入して、パッチアライメントによる以前のトランスフォーマーを拡張した。第2に、パッチワイズ機能マッチングを改善するために、Mask Pruning-based Patch Attention (MPPA)を導入する。第3に、時空間トークンに対する正確な注意を得るために、時空間重み付け適応器(STA)モジュールを導入する。
論文参考訳（メタデータ） (2022-09-28T08:57:14Z)
Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文参考訳（メタデータ） (2022-04-06T17:45:38Z)
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文参考訳（メタデータ） (2021-11-24T18:31:20Z)
Occlusion-Aware Video Object Inpainting [72.38919601150175]
本稿では,映像における隠蔽物体の完全な形状と外観を復元する,隠蔽型映像オブジェクトの塗装について述べる。我々の技術貢献であるVOINは、ビデオオブジェクト形状の完成と隠蔽テクスチャ生成を共同で行う。より現実的な結果を得るために、VOINはT-PatchGANと新しい時間的YouTubeアテンションベースのマルチクラス識別器の両方を使用して最適化されている。
論文参考訳（メタデータ） (2021-08-15T15:46:57Z)
Learning Joint Spatial-Temporal Transformations for Video Inpainting [58.939131620135235]
本稿では,ビデオインペイントのためのSTTN (Spatial-Temporal Transformer Network) を提案する。我々は,全ての入力フレームの欠落領域を自己注意で同時に埋めるとともに,空間空間的対角損失によるSTTNの最適化を提案する。
論文参考訳（メタデータ） (2020-07-20T16:35:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。