論文の概要: 3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.17414v1
- Date: Thu, 24 Apr 2025 10:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.322886
- Title: 3DV-TON: Textured 3D-Guided Consistent Video Try-on via Diffusion Models
- Title(参考訳): 3DV-TON:拡散モデルによるテクスチャ付き3Dガイド型連続ビデオトライオン
- Authors: Min Wei, Chaohui Yu, Jingkai Zhou, Fan Wang,
- Abstract要約: 3DV-TONは、高忠実で時間的に一貫したビデオトライオン結果を生成するための新しいフレームワークである。
提案手法では, フレームレベルの明示的なガイダンスとして, アニマタブルなテクスチャ付き3Dメッシュを用いる。
ビデオトライオン研究を進めるために,衣類の種類やシナリオが多種多様である130本のビデオを含む高精細度ベンチマークデータセットHR-VVTを紹介する。
- 参考スコア(独自算出の注目度): 12.949009540192389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video try-on replaces clothing in videos with target garments. Existing methods struggle to generate high-quality and temporally consistent results when handling complex clothing patterns and diverse body poses. We present 3DV-TON, a novel diffusion-based framework for generating high-fidelity and temporally consistent video try-on results. Our approach employs generated animatable textured 3D meshes as explicit frame-level guidance, alleviating the issue of models over-focusing on appearance fidelity at the expanse of motion coherence. This is achieved by enabling direct reference to consistent garment texture movements throughout video sequences. The proposed method features an adaptive pipeline for generating dynamic 3D guidance: (1) selecting a keyframe for initial 2D image try-on, followed by (2) reconstructing and animating a textured 3D mesh synchronized with original video poses. We further introduce a robust rectangular masking strategy that successfully mitigates artifact propagation caused by leaking clothing information during dynamic human and garment movements. To advance video try-on research, we introduce HR-VVT, a high-resolution benchmark dataset containing 130 videos with diverse clothing types and scenarios. Quantitative and qualitative results demonstrate our superior performance over existing methods. The project page is at this link https://2y7c3.github.io/3DV-TON/
- Abstract(参考訳): ビデオ試着は、ビデオの服をターゲットの服に置き換える。
既存の手法では、複雑な衣服パターンや多様な身体のポーズを扱う際に、高品質で時間的に一貫した結果を生み出すのに苦労している。
3DV-TONは高忠実かつ時間的に一貫したビデオ試行結果を生成するための新しい拡散ベースのフレームワークである。
提案手法では, フレームレベルの明示的なガイダンスとして, 生成可能なテクスチャ3Dメッシュを用い, 動きコヒーレンス拡大時の外観忠実度に過度に焦点をあてるモデルの問題点を緩和する。
これは、ビデオシーケンス全体を通して一貫したテクスチャの動きを直接参照することで実現される。
提案手法では,(1)初期2次元画像試行のためのキーフレームの選択,(2)オリジナル映像と同期したテクスチャ化された3次元メッシュの再構成とアニメーションを行う。
さらに,ダイナミックな人や衣服の動きにおいて,衣服情報漏洩による人工物伝播を緩和する,頑丈な長方形のマスキング戦略を導入する。
ビデオトライオン研究を進めるために,衣類の種類やシナリオが多種多様である130本のビデオを含む高精細度ベンチマークデータセットHR-VVTを紹介する。
定量および定性的な結果は既存の方法よりも優れた性能を示している。
プロジェクトページは、このリンクにある。 https://2y7c3.github.io/3DV-TON/
関連論文リスト
- I2V3D: Controllable image-to-video generation with 3D guidance [42.23117201457898]
IV23Dは、静的画像を正確な3D制御で動的ビデオにアニメーションするためのフレームワークである。
提案手法は,コンピュータグラフィックスパイプラインの精度と高度な生成モデルを組み合わせる。
論文 参考訳(メタデータ) (2025-03-12T18:26:34Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。
私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。
我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-30T08:42:13Z) - Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Enhancing Temporal Consistency in Video Editing by Reconstructing Videos with 3D Gaussian Splatting [94.84688557937123]
Video-3DGSは、ゼロショットビデオエディタの時間的一貫性を高めるために設計された3Dガウススプラッティング(3DGS)ベースのビデオ精細機である。
本手法は動的モノクロビデオの編集に適した2段階の3次元ガウス最適化プロセスを利用する。
58の動的モノクロビデオ間の時間的一貫性を確保することで、ビデオ編集を強化する。
論文 参考訳(メタデータ) (2024-06-04T17:57:37Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。