論文の概要: Tunnel Try-on: Excavating Spatial-temporal Tunnels for High-quality Virtual Try-on in Videos
- arxiv url: http://arxiv.org/abs/2404.17571v1
- Date: Fri, 26 Apr 2024 17:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:25:41.780262
- Title: Tunnel Try-on: Excavating Spatial-temporal Tunnels for High-quality Virtual Try-on in Videos
- Title(参考訳): トンネル試行:高品位仮想試行のための時空間トンネル掘削
- Authors: Zhengze Xu, Mengting Chen, Zhao Wang, Linyu Xing, Zhonghua Zhai, Nong Sang, Jinsong Lan, Shuai Xiao, Changxin Gao,
- Abstract要約: 本稿では,ビデオ試行のための拡散型フレームワークTunnel Try-onを提案する。
中心となるアイデアは、入力ビデオで「フォーカストンネル」を発掘し、衣服の周辺をクローズアップすることです。
コヒーレントな動きを生成するために、まずカルマンフィルタを利用してフォーカストンネル内の滑らかな作物を構築し、トンネルの位置埋め込みを注意層に注入する。
- 参考スコア(独自算出の注目度): 30.221106187915886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video try-on is a challenging task and has not been well tackled in previous works. The main obstacle lies in preserving the details of the clothing and modeling the coherent motions simultaneously. Faced with those difficulties, we address video try-on by proposing a diffusion-based framework named "Tunnel Try-on." The core idea is excavating a "focus tunnel" in the input video that gives close-up shots around the clothing regions. We zoom in on the region in the tunnel to better preserve the fine details of the clothing. To generate coherent motions, we first leverage the Kalman filter to construct smooth crops in the focus tunnel and inject the position embedding of the tunnel into attention layers to improve the continuity of the generated videos. In addition, we develop an environment encoder to extract the context information outside the tunnels as supplementary cues. Equipped with these techniques, Tunnel Try-on keeps the fine details of the clothing and synthesizes stable and smooth videos. Demonstrating significant advancements, Tunnel Try-on could be regarded as the first attempt toward the commercial-level application of virtual try-on in videos.
- Abstract(参考訳): ビデオの試行は難しい作業であり、以前の作品ではうまく取り組んでいない。
主な障害は、衣服の詳細を保存し、コヒーレントな動きを同時にモデル化することである。
このような困難に直面して,拡散型フレームワークであるTunnel Try-onを提案することで,ビデオトライオンに対処する。
中心となるアイデアは、入力ビデオで「フォーカストンネル」を発掘し、衣服の周辺をクローズアップすることです。
われわれはトンネル内の地域を拡大して、衣服の細部をよりよく保存する。
コヒーレントな動きを生成するために、まずカルマンフィルタを利用してフォーカストンネル内の滑らかな作物を構築し、トンネルの位置埋め込みを注意層に注入し、生成したビデオの連続性を改善する。
さらに,トンネル外の文脈情報を補足手段として抽出する環境エンコーダを開発した。
これらのテクニックを取り入れたTunnel Try-onは、衣服の細部を保存し、安定したスムーズなビデオを合成する。
トンネルトライオンは、重要な進歩を示すものとして、ビデオにおける仮想トライオンの商業レベルの応用に向けた最初の試みと見なすことができる。
関連論文リスト
- VITON-DiT: Learning In-the-Wild Video Try-On from Human Dance Videos via Diffusion Transformers [53.45587477621942]
そこで本研究では,VITON-DiT という,Diton-DiT ベースのビデオトライオンフレームワークを提案する。
具体的には、VITON-DiTは、衣服抽出器、空間-テンポラル denoising DiT、アイデンティティ保存制御ネットから構成される。
また、トレーニング中のランダム選択戦略や、長いビデオ生成を容易にするために、推論時に補間自己回帰(IAR)技術を導入する。
論文 参考訳(メタデータ) (2024-05-28T16:21:03Z) - ToonCrafter: Generative Cartoon Interpolation [63.52353451649143]
ToonCrafterは、従来の文通ベースの漫画映像を超越した新しいアプローチである。
ToonCrafterは、生成漫画にライブアクションビデオの動きを適用する際に直面する課題を効果的に解決する。
実験結果から,提案手法は視覚的に説得力があり,より自然に作用するだけでなく,非閉塞性も効果的に扱えることが示された。
論文 参考訳(メタデータ) (2024-05-28T07:58:33Z) - ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。
これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。
ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文 参考訳(メタデータ) (2024-05-20T05:28:22Z) - EGVD: Event-Guided Video Deraining [57.59935209162314]
本稿では,ビデオデライニングのためのイベントカメラの可能性を解放するエンド・ツー・エンドの学習ネットワークを提案する。
雨の多いビデオと時間的に同期されたイベントストリームからなる現実世界のデータセットを構築します。
論文 参考訳(メタデータ) (2023-09-29T13:47:53Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - ClothFormer:Taming Video Virtual Try-on in All Module [12.084652803378598]
ビデオの仮想試着は、対象の服を時間的に一貫した結果でビデオの人物に合わせることを目的としている。
ClothFormerフレームワークは、複雑な環境で現実的で時間的な一貫性のある結果をうまく合成する。
論文 参考訳(メタデータ) (2022-04-26T08:40:28Z) - MonoClothCap: Towards Temporally Coherent Clothing Capture from
Monocular RGB Video [10.679773937444445]
本稿では,モノクラーRGBビデオ入力から時間的コヒーレントな動的衣服の変形を捉える手法を提案する。
我々は,Tシャツ,ショートパンツ,ロングパンツの3種類の衣服の統計的変形モデルを構築した。
本手法は,モノクロ映像から身体と衣服の時間的コヒーレントな再構築を実現する。
論文 参考訳(メタデータ) (2020-09-22T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。