Fugu-MT 論文翻訳(概要): DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

論文の概要: DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

arxiv url: http://arxiv.org/abs/2304.06025v2
Date: Fri, 14 Apr 2023 15:36:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-17 10:41:01.174546
Title: DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion
Title（参考訳）: DreamPose:安定拡散によるファッション画像とビデオの合成
Authors: Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira Kemelmacher-Shlizerman
Abstract要約: 静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。そこで本手法では,人体と織物の両方の動きを収録した映像を合成する。
参考スコア（独自算出の注目度）: 82.09995968939218
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present DreamPose, a diffusion-based method for generating animated fashion videos from still images. Given an image and a sequence of human body poses, our method synthesizes a video containing both human and fabric motion. To achieve this, we transform a pretrained text-to-image model (Stable Diffusion) into a pose-and-image guided video synthesis model, using a novel finetuning strategy, a set of architectural changes to support the added conditioning signals, and techniques to encourage temporal consistency. We fine-tune on a collection of fashion videos from the UBC Fashion dataset. We evaluate our method on a variety of clothing styles and poses, and demonstrate that our method produces state-of-the-art results on fashion video animation. Video results are available on our project page.
Abstract（参考訳）: 静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。画像と人間のポーズのシーケンスが与えられたら、人間の動きと布の動きの両方を含むビデオを合成する。そこで本研究では,事前学習したテキストから画像への拡散(stable diffusion)を,新たな微調整戦略,追加条件付信号をサポートするアーキテクチャ変更,時間的一貫性を促進する手法を用いて,ポーズ・アンド・イメージ誘導ビデオ合成モデルに変換する。 ubcのファッションデータセットのファッションビデオのコレクションについて詳しく調べた。本手法は,様々な衣料品のスタイルやポーズについて評価し,ファッションビデオアニメーションで最新の結果が得られることを示す。ビデオの結果はプロジェクトのページで確認できます。

関連論文リスト

ProFashion: Prototype-guided Fashion Video Generation with Multiple Reference Images [15.345172917297246]
ファッション生成は、指定された文字の参照画像から時間的に一貫したビデオを合成することを目的としている。一貫性と時間的一貫性を向上させるためのフレームワークであるProFashionを提案する。インターネットから収集したMRFashion-7Kデータセットについて評価を行った。
論文参考訳（メタデータ） (2025-05-10T06:59:24Z)
SOYO: A Tuning-Free Approach for Video Style Morphing via Style-Adaptive Interpolation in Diffusion Models [54.641809532055916]
本稿では,ビデオスタイルモーフィングのための新しい拡散型フレームワークであるSOYOを紹介する。本手法では, 微調整を伴わずに事前訓練したテキスト・画像拡散モデルを用い, 注意注入とAdaINを併用して構造的整合性を維持する。ビデオフレーム間の調和を図るために,2種類の画像間の適応型サンプリングスケジューラを提案する。
論文参考訳（メタデータ） (2025-03-10T07:27:01Z)
Replace Anyone in Videos [39.4019337319795]
ビデオ中の人間の動きのローカライズと操作に焦点を当てたReplaceAnyoneフレームワークを提案する。具体的には、このタスクをイメージ条件付きポーズ駆動ビデオインペインティングパラダイムとして定式化する。形状漏れを回避し,局所制御のきめ細かな制御を可能にするために,規則形状と不規則形状を含む多種多様なマスク形式を導入する。
論文参考訳（メタデータ） (2024-09-30T03:27:33Z)
WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文参考訳（メタデータ） (2024-07-15T11:21:03Z)
ViViD: Video Virtual Try-on using Diffusion Models [46.710863047471264]
Video Virtual try-onは、服のアイテムを対象者のビデオに転送することを目的としている。これまでのビデオベースの試行錯誤ソリューションは、視力の低い結果とぼやけた結果しか生成できない。ビデオ仮想トライオンの課題に対処するために,強力な拡散モデルを用いた新しいフレームワークViViDを提案する。
論文参考訳（メタデータ） (2024-05-20T05:28:22Z)
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。 DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文参考訳（メタデータ） (2023-12-07T16:57:26Z)
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文参考訳（メタデータ） (2023-10-18T14:42:16Z)
FashionFlow: Leveraging Diffusion Models for Dynamic Fashion Video Synthesis from Static Imagery [3.3063015889158716]
本研究ではファッションビデオを生成するためにFashionFlowと呼ばれる新しいイメージ・ツー・ビデオ・ジェネレータを提案する。拡散モデルを利用することで、静止したファッション画像から短いビデオを作成することができる。
論文参考訳（メタデータ） (2023-09-29T19:34:32Z)
Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文参考訳（メタデータ） (2023-08-15T13:00:42Z)
Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style Transfer [13.098901971644656]
本稿では,Style-A-Video というゼロショットビデオスタイリング手法を提案する。画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて、簡潔なテキスト制御ビデオスタイリングを実現する。テストの結果,従来のソリューションよりも少ない使用量で,優れたコンテンツ保存とスタイリスティックな性能が得られることがわかった。
論文参考訳（メタデータ） (2023-05-09T14:03:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。