論文の概要: Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image -- Technical Preview
- arxiv url: http://arxiv.org/abs/2509.04450v1
- Date: Thu, 04 Sep 2025 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.258836
- Title: Virtual Fitting Room: Generating Arbitrarily Long Videos of Virtual Try-On from a Single Image -- Technical Preview
- Title(参考訳): 仮想フィッティングルーム: 仮想トライオン動画を1枚の画像から生成する - テクニカルプレビュー
- Authors: Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang,
- Abstract要約: 任意の長さの仮想試行ビデオを生成する新しいビデオ生成モデルであるVirtual Fitting Room (VFR)を紹介した。
我々のVFRは、自動回帰・セグメント・バイ・セグメンテーション生成プロセスとして、長いビデオ生成タスクをモデル化する。
我々のVFRは、局所的な滑らかさと、様々な動作下でのグローバルな時間的一貫性の両方を兼ね備えた、ミニスケールの仮想試行ビデオを生成する。
- 参考スコア(独自算出の注目度): 55.78895889755938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Virtual Fitting Room (VFR), a novel video generative model that produces arbitrarily long virtual try-on videos. Our VFR models long video generation tasks as an auto-regressive, segment-by-segment generation process, eliminating the need for resource-intensive generation and lengthy video data, while providing the flexibility to generate videos of arbitrary length. The key challenges of this task are twofold: ensuring local smoothness between adjacent segments and maintaining global temporal consistency across different segments. To address these challenges, we propose our VFR framework, which ensures smoothness through a prefix video condition and enforces consistency with the anchor video -- a 360-degree video that comprehensively captures the human's wholebody appearance. Our VFR generates minute-scale virtual try-on videos with both local smoothness and global temporal consistency under various motions, making it a pioneering work in long virtual try-on video generation.
- Abstract(参考訳): 任意の長さの仮想試行ビデオを生成する新しいビデオ生成モデルであるVirtual Fitting Room (VFR)を紹介した。
我々のVFRは、長大なビデオ生成タスクを自動回帰・セグメント・バイ・セグメンテーション生成プロセスとしてモデル化し、リソース集約型および長大なビデオデータの必要性を排除し、任意の長さのビデオを生成する柔軟性を提供する。
このタスクの主な課題は、隣接するセグメント間の局所的な滑らかさの確保と、異なるセグメント間でのグローバルな時間的一貫性の維持である。
これらの課題に対処するため、私たちはVFRフレームワークを提案し、プレフィックスビデオ条件による滑らかさを保証するとともに、人間の全体像を包括的にキャプチャする360度ビデオであるアンカービデオとの一貫性を強制する。
我々のVFRは、様々な動作の下で局所的な滑らかさとグローバルな時間的整合性を兼ね備えたミニスケールの仮想試行ビデオを生成し、長い仮想試行ビデオ生成における先駆的な作業となった。
関連論文リスト
- FreeLong++: Training-Free Long Video Generation via Multi-band SpectralFusion [24.48220892418698]
FreeLongは、Denoisingプロセス中の長いビデオ機能の頻度分布のバランスをとるために設計された、トレーニング不要のフレームワークである。
FreeLongは、全ビデオの全体的意味をキャプチャするグローバルな低周波特徴と、短い時間窓から抽出された局所的な高周波特徴をブレンドすることで、これを実現している。
FreeLong++はFreeLongを複数の注意枝を持つマルチブランチアーキテクチャに拡張し、それぞれが異なる時間スケールで動作する。
論文 参考訳(メタデータ) (2025-06-30T18:11:21Z) - StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。
私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文 参考訳(メタデータ) (2024-03-21T18:27:29Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。