論文の概要: Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
- arxiv url: http://arxiv.org/abs/2604.04934v1
- Date: Mon, 06 Apr 2026 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.341189
- Title: Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
- Title(参考訳): Vanast: 合成トリプルト・スーパービジョンによる人間のイメージアニメーションによる仮想トライオン
- Authors: Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo,
- Abstract要約: Vanastは、単一の人間画像、衣料品画像、ポーズガイダンスビデオから直接、衣料品に変換された人間のアニメーションビデオを生成するフレームワークである。
本モデルでは,コヒーレント合成を実現するため,プロセス全体を統一的なステップで実行することで問題に対処する。
- 参考スコア(独自算出の注目度): 23.145506516223126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Vanast, a unified framework that generates garment-transferred human animation videos directly from a single human image, garment images, and a pose guidance video. Conventional two-stage pipelines treat image-based virtual try-on and pose-driven animation as separate processes, which often results in identity drift, garment distortion, and front-back inconsistency. Our model addresses these issues by performing the entire process in a single unified step to achieve coherent synthesis. To enable this setting, we construct large-scale triplet supervision. Our data generation pipeline includes generating identity-preserving human images in alternative outfits that differ from garment catalog images, capturing full upper and lower garment triplets to overcome the single-garment-posed video pair limitation, and assembling diverse in-the-wild triplets without requiring garment catalog images. We further introduce a Dual Module architecture for video diffusion transformers to stabilize training, preserve pretrained generative quality, and improve garment accuracy, pose adherence, and identity preservation while supporting zero-shot garment interpolation. Together, these contributions allow Vanast to produce high-fidelity, identity-consistent animation across a wide range of garment types.
- Abstract(参考訳): 本稿では,1枚の人間画像,衣料品画像,ポーズガイダンスビデオから直接,衣料品を転送した人間のアニメーション映像を生成する統一フレームワークであるVanastを紹介する。
従来の2段階のパイプラインは、イメージベースの仮想試行とポーズ駆動のアニメーションを別々のプロセスとして扱う。
このモデルでは、コヒーレントな合成を実現するために、プロセス全体を単一の統一的なステップで実行することで、これらの問題に対処する。
この設定を可能にするために,大規模な三重項監視を構築した。
我々のデータ生成パイプラインは、衣料品のカタログ画像とは異なる別の衣装でアイデンティティ保存された人間の画像を生成し、衣料品のカタログ画像を必要とせず、単着の映像対の制限を克服するために、上着と下着のトリップレットをフルにキャプチャし、様々な組立三脚を組立てることを含む。
さらに,ビデオ拡散トランスフォーマーのためのデュアルモジュールアーキテクチャを導入し,トレーニングの安定化,事前訓練された生成品質の維持,衣服の精度の向上,アテンデンス,アイデンティティの保全を実現し,ゼロショットの衣服補間をサポートした。
これらの貢献により、ヴァナストは多種多様な衣服にまたがる高忠実でアイデンティティと一貫性のあるアニメーションを制作できる。
関連論文リスト
- DressWild: Feed-Forward Pose-Agnostic Garment Sewing Pattern Generation from In-the-Wild Images [50.11081091174558]
本稿では,衣料品のモデリングと製作のための縫製パターン生成に焦点を当てた。
そこで我々は,DressWildを提案する。DressWildは,物理に一貫性のある2Dミシンパターンと,それに対応する3D衣服を,ワン・ザ・ウィンド画像から再構成する新しいフィードフォワードパイプラインである。
論文 参考訳(メタデータ) (2026-02-18T14:45:15Z) - Garment Animation NeRF with Color Editing [6.357662418254495]
そこで本稿では, 明示的な衣料プロキシを必要とせずに, 身体動作系列から衣料アニメーションを合成する手法を提案する。
本手法は, 体の動きから衣服の動的特徴を推定し, 衣服構造を概観する。
身体の動きやカメラの視界にまたがる手法の一般化性を実証し、詳細な構造的整合性を確保する。
論文 参考訳(メタデータ) (2024-07-29T08:17:05Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - High-Quality Animatable Dynamic Garment Reconstruction from Monocular
Videos [51.8323369577494]
そこで本研究では,モノクロビデオから高品質なアニマタブルな動的衣服をスキャンデータに頼らずに回収する手法を提案する。
様々な不明瞭なポーズに対する合理的な変形を生成するために,学習可能な衣服変形ネットワークを提案する。
提案手法は,高品質な動的衣服をコヒーレントな表面形状で再構成し,見知らぬポーズで容易にアニメーションできることを示す。
論文 参考訳(メタデータ) (2023-11-02T13:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。