論文の概要: The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection
- arxiv url: http://arxiv.org/abs/2512.20340v1
- Date: Tue, 23 Dec 2025 13:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.882224
- Title: The devil is in the details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection
- Title(参考訳): キーフレーム駆動インクリメンタルインジェクションによるビデオバーチャルトライオンの強化
- Authors: Qingdong He, Xueqin Chen, Yanjie Pan, Peng Tang, Pengcheng Xu, Zhenye Gan, Chengjie Wang, Xiaobin Hu, Jiangning Zhang, Yabiao Wang,
- Abstract要約: KeyTailorは、リアルな試用ビデオのための新しいフレームワークだ。
インストラクション誘導サンプリング戦略を用いて、入力ビデオから情報フレームをフィルタリングする。
我々のデータセットViT-HDは、15,070の高品質なビデオサンプルを810*1080の解像度で構成し、多様な衣服をカバーしている。
- 参考スコア(独自算出の注目度): 90.30501870268911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although diffusion transformer (DiT)-based video virtual try-on (VVT) has made significant progress in synthesizing realistic videos, existing methods still struggle to capture fine-grained garment dynamics and preserve background integrity across video frames. They also incur high computational costs due to additional interaction modules introduced into DiTs, while the limited scale and quality of existing public datasets also restrict model generalization and effective training. To address these challenges, we propose a novel framework, KeyTailor, along with a large-scale, high-definition dataset, ViT-HD. The core idea of KeyTailor is a keyframe-driven details injection strategy, motivated by the fact that keyframes inherently contain both foreground dynamics and background consistency. Specifically, KeyTailor adopts an instruction-guided keyframe sampling strategy to filter informative frames from the input video. Subsequently,two tailored keyframe-driven modules, the garment details enhancement module and the collaborative background optimization module, are employed to distill garment dynamics into garment-related latents and to optimize the integrity of background latents, both guided by keyframes.These enriched details are then injected into standard DiT blocks together with pose, mask, and noise latents, enabling efficient and realistic try-on video synthesis. This design ensures consistency without explicitly modifying the DiT architecture, while simultaneously avoiding additional complexity. In addition, our dataset ViT-HD comprises 15, 070 high-quality video samples at a resolution of 810*1080, covering diverse garments. Extensive experiments demonstrate that KeyTailor outperforms state-of-the-art baselines in terms of garment fidelity and background integrity across both dynamic and static scenarios.
- Abstract(参考訳): 拡散トランスフォーマー(DiT)ベースのビデオ仮想トライオン(VVT)は、現実的なビデオの合成において大きな進歩を遂げているが、既存の手法は、細粒度な衣料動態を捉え、ビデオフレーム間の背景の整合性を維持するのに苦慮している。
また、DiTに導入された相互作用モジュールの追加による計算コストも高く、既存の公開データセットのスケールと品質に制限があるため、モデルの一般化や効果的なトレーニングも制限されている。
これらの課題に対処するため,我々は,大規模な高精細データセットであるViT-HDとともに,新しいフレームワークであるKeyTailorを提案する。
KeyTailorの中核的なアイデアは、キーフレーム駆動の詳細なインジェクション戦略であり、キーフレームが本質的にフォアグラウンドダイナミクスとバックグラウンド一貫性の両方を含んでいるという事実に動機づけられている。
具体的には、KeyTailorは命令誘導型キーフレームサンプリング戦略を採用して、入力ビデオから情報フレームをフィルタリングする。
その後、2つの調整されたキーフレーム駆動モジュール(衣料細工モジュールと協調的な背景最適化モジュール)を用いて、衣料関連潜伏剤に衣料動態を蒸留し、背景潜伏剤の整合性を最適化し、これらをキーフレームでガイドし、それらを補足、マスク、ノイズ潜伏剤と共に標準のDiTブロックに注入し、効率よくリアルな試行ビデオ合成を可能にする。
この設計は、DiTアーキテクチャを明示的に変更することなく一貫性を確保すると同時に、さらなる複雑さを回避する。
さらに,810*1080の解像度で高画質なビデオサンプル15,070枚を収集した。
大規模な実験により、KeyTailorは、動的シナリオと静的シナリオの両方で、衣服の忠実さと背景の整合性の観点から、最先端のベースラインよりも優れています。
関連論文リスト
- Distill Video Datasets into Images [28.61426017935629]
単一フレームビデオセット蒸留(Single-Frame Videoset Distillation, SFVD)は、各クラスに対して高い情報フレームにビデオを蒸留するフレームワークである。
SFVDは従来の手法よりも大幅に優れており、MiniUCFでは最大5.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-12-16T17:33:41Z) - STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - PRISM: Video Dataset Condensation with Progressive Refinement and Insertion for Sparse Motion [22.804486552524885]
本稿では,ビデオデータセット凝縮のためのプログレッシブ・リファインメント・インサーション・フォー・スパース・モーション(PRISM)を提案する。
静的コンテンツを動的運動から分離する従来の方法とは異なり、本手法はこれらの要素間の重要な相互依存を保存する。
提案手法は,動作中の動作を完全に調整するためにフレームを段階的に洗練・挿入し,性能は向上するが,記憶力は低下する。
論文 参考訳(メタデータ) (2025-05-28T16:42:10Z) - MagicTryOn: Harnessing Diffusion Transformer for Garment-Preserving Video Virtual Try-on [28.66545985357718]
VVT(Virtual Try-On)は、連続するフレームにわたって自然に現れる衣服を合成し、それらのダイナミクスと人間の手がかりとの相互作用の両方をキャプチャすることを目的としている。
既存のVVT法はまだ不適切な衣服の忠実さと時間的整合性に悩まされている。
MagicTryOnは、衣料制約付き仮想試着のための拡散変換器ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T15:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。