論文の概要: FashionFlow: Leveraging Diffusion Models for Dynamic Fashion Video
Synthesis from Static Imagery
- arxiv url: http://arxiv.org/abs/2310.00106v2
- Date: Sat, 20 Jan 2024 09:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:39:00.123570
- Title: FashionFlow: Leveraging Diffusion Models for Dynamic Fashion Video
Synthesis from Static Imagery
- Title(参考訳): fashionflow: 静的画像からの動的ファッションビデオ合成に拡散モデルを活用する
- Authors: Tasin Islam, Alina Miron, XiaoHui Liu, Yongmin Li
- Abstract要約: 本研究ではファッションビデオを生成するためにFashionFlowと呼ばれる新しいイメージ・ツー・ビデオ・ジェネレータを提案する。
拡散モデルを利用することで、静止したファッション画像から短いビデオを作成することができる。
- 参考スコア(独自算出の注目度): 3.3063015889158716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our study introduces a new image-to-video generator called FashionFlow to
generate fashion videos. By utilising a diffusion model, we are able to create
short videos from still fashion images. Our approach involves developing and
connecting relevant components with the diffusion model, which results in the
creation of high-fidelity videos that are aligned with the conditional image.
The components include the use of pseudo-3D convolutional layers to generate
videos efficiently. VAE and CLIP encoders capture vital characteristics from
still images to condition the diffusion model at a global level. Our research
demonstrates a successful synthesis of fashion videos featuring models posing
from various angles, showcasing the fit and appearance of the garment. Our
findings hold great promise for improving and enhancing the shopping experience
for the online fashion industry.
- Abstract(参考訳): 本研究ではファッションビデオを生成するためにFashionFlowと呼ばれる新しい画像合成装置を提案する。
拡散モデルを利用することで、静止したファッション画像から短いビデオを作成することができる。
提案手法では, 関連成分を拡散モデルと結合させることにより, 条件付き画像に整合した高忠実度映像を作成する。
コンポーネントには、ビデオを効率的に生成するための擬似3D畳み込みレイヤーの使用が含まれる。
VAEとCLIPエンコーダは静止画像から重要な特徴を捉え、グローバルレベルで拡散モデルを条件付ける。
本研究は,様々な角度からモデルのポーズをとり,衣服のフィットと外観を示すファッションビデオの合成に成功したことを実証する。
本研究は,オンラインファッション産業におけるショッピングエクスペリエンスの向上と向上に大きな期待を寄せている。
関連論文リスト
- ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning [36.378348127629195]
ビデオ合成モデルのための新しいポストチューニング手法であるExVideoを提案する。
このアプローチは、現在のビデオ合成モデルの能力を向上し、時間的長期にわたってコンテンツを制作できるように設計されている。
当社のアプローチでは、40Kビデオからなるデータセット上でのトレーニングに15kのGPU時間しか必要とせず、オリジナルのフレーム数に対して最大5倍の価格で生成可能なモデル容量を拡大しています。
論文 参考訳(メタデータ) (2024-06-20T09:18:54Z) - FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion [11.646594594565098]
本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。
我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。
論文 参考訳(メタデータ) (2024-04-26T14:59:42Z) - VideoCrafter2: Overcoming Data Limitations for High-Quality Video
Diffusion Models [76.85329896854189]
高品質なビデオモデルを実現するために,低品質な映像の活用と高品質な画像の合成の実現可能性について検討する。
我々は、高画質の映像で空間モジュールを微調整することにより、動きの劣化を伴わずに高画質に分布をシフトし、その結果、総称的な高品質な映像モデルを得る。
論文 参考訳(メタデータ) (2024-01-17T08:30:32Z) - DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。
我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文 参考訳(メタデータ) (2023-12-05T03:16:31Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Interactive Fashion Content Generation Using LLMs and Latent Diffusion
Models [0.0]
ファッション可能な画像生成は、世界中の多様なファッションのイメージを合成することを目的としている。
拡散モデルとエネルギーベースモデル(EBM)の等価性を利用する手法を提案する。
以上の結果から,LLMを用いて潜在拡散モデルのプロンプトを洗練させることにより,グローバルな創造的,文化的に多様化したファッションスタイルの創出を支援することが示唆された。
論文 参考訳(メタデータ) (2023-05-15T18:38:25Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion [63.179505586264014]
静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
そこで本手法では,人体と織物の両方の動きを収録した映像を合成する。
論文 参考訳(メタデータ) (2023-04-12T17:59:17Z) - Imagen Video: High Definition Video Generation with Diffusion Models [64.06483414521222]
Imagen Videoは、ビデオ拡散モデルのカスケードに基づくテキスト条件付きビデオ生成システムである。
我々は高精細度ビデオを生成することができるが、高い可制御性と世界的知識を持つ画像n Videoを見いだす。
論文 参考訳(メタデータ) (2022-10-05T14:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。