論文の概要: DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
- arxiv url: http://arxiv.org/abs/2304.06025v4
- Date: Mon, 30 Oct 2023 21:44:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:20:55.085051
- Title: DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
- Title(参考訳): DreamPose:安定拡散によるファッション画像とビデオの合成
- Authors: Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira
Kemelmacher-Shlizerman
- Abstract要約: 静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
そこで本手法では,人体と織物の両方の動きを収録した映像を合成する。
- 参考スコア(独自算出の注目度): 63.179505586264014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DreamPose, a diffusion-based method for generating animated
fashion videos from still images. Given an image and a sequence of human body
poses, our method synthesizes a video containing both human and fabric motion.
To achieve this, we transform a pretrained text-to-image model (Stable
Diffusion) into a pose-and-image guided video synthesis model, using a novel
fine-tuning strategy, a set of architectural changes to support the added
conditioning signals, and techniques to encourage temporal consistency. We
fine-tune on a collection of fashion videos from the UBC Fashion dataset. We
evaluate our method on a variety of clothing styles and poses, and demonstrate
that our method produces state-of-the-art results on fashion video
animation.Video results are available on our project page.
- Abstract(参考訳): 静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
画像と人間のポーズのシーケンスが与えられたら、人間の動きと布の動きの両方を含むビデオを合成する。
これを実現するために,事前学習したテキストから画像への拡散(stable diffusion)を,新たな微調整戦略,付加されたコンディショニング信号をサポートするアーキテクチャ変更のセット,時間的一貫性を促進する技術を用いて,ポーズ・アンド・イメージ誘導ビデオ合成モデルに変換する。
ubcのファッションデータセットのファッションビデオのコレクションについて詳しく調べた。
本手法は衣料品のスタイルやポーズを多岐にわたって評価し, ファッションビデオの映像化における最先端の成果が得られたことを実証する。
関連論文リスト
- DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention
and Text Guidance [73.19191296296988]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - WAIT: Feature Warping for Animation to Illustration video Translation
using GANs [12.681919619814419]
ビデオのスタイリングにおいて,未順序画像の集合を用いる場合の新たな問題を提案する。
映像から映像への翻訳のほとんどは、画像から画像への翻訳モデルに基づいて構築されている。
本稿では,従来の手法の限界を克服する特徴変形層を有する新しいジェネレータネットワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T19:45:24Z) - FashionFlow: Leveraging Diffusion Models for Dynamic Fashion Video
Synthesis from Static Imagery [3.3063015889158716]
本研究ではファッションビデオを生成するためにFashionFlowと呼ばれる新しいイメージ・ツー・ビデオ・ジェネレータを提案する。
拡散モデルを利用することで、静止したファッション画像から短いビデオを作成することができる。
論文 参考訳(メタデータ) (2023-09-29T19:34:32Z) - Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文 参考訳(メタデータ) (2023-08-15T13:00:42Z) - Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style
Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。
画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。
テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-09T14:03:27Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - Do As I Do: Transferring Human Motion and Appearance between Monocular
Videos with Spatial and Temporal Constraints [8.784162652042959]
画像からのマーカレス人間の動き推定と形状モデリングは、この課題を先進国にもたらす。
本稿では,モノクラービデオから外見や人間の動きを伝達するための統一的な定式化を提案する。
本手法は,人間の動作と外観の両方を,最先端の手法で転送することができる。
論文 参考訳(メタデータ) (2020-01-08T16:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。