論文の概要: DANCER: Dance ANimation via Condition Enhancement and Rendering with diffusion model
- arxiv url: http://arxiv.org/abs/2510.27169v1
- Date: Fri, 31 Oct 2025 04:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.977724
- Title: DANCER: Dance ANimation via Condition Enhancement and Rendering with diffusion model
- Title(参考訳): DANCER:拡散モデルによる条件強調とレンダリングによるダンスアニメーション
- Authors: Yucheng Xing, Jinxing Yin, Xiaodong Liu,
- Abstract要約: 最新の安定な映像拡散モデルに基づく現実的な個人舞踊合成のための新しいフレームワーク DANCER を提案する。
フレームワークに2つの重要なモジュールを導入し、この2つのインプットを完全に活用します。
インターネットから大量の映像データを収集し,新たなデータセットTikTok-3Kを生成し,モデルトレーニングの強化を図る。
- 参考スコア(独自算出の注目度): 5.78710251788825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, diffusion models have shown their impressive ability in visual generation tasks. Besides static images, more and more research attentions have been drawn to the generation of realistic videos. The video generation not only has a higher requirement for the quality, but also brings a challenge in ensuring the video continuity. Among all the video generation tasks, human-involved contents, such as human dancing, are even more difficult to generate due to the high degrees of freedom associated with human motions. In this paper, we propose a novel framework, named as DANCER (Dance ANimation via Condition Enhancement and Rendering with Diffusion Model), for realistic single-person dance synthesis based on the most recent stable video diffusion model. As the video generation is generally guided by a reference image and a video sequence, we introduce two important modules into our framework to fully benefit from the two inputs. More specifically, we design an Appearance Enhancement Module (AEM) to focus more on the details of the reference image during the generation, and extend the motion guidance through a Pose Rendering Module (PRM) to capture pose conditions from extra domains. To further improve the generation capability of our model, we also collect a large amount of video data from Internet, and generate a novel datasetTikTok-3K to enhance the model training. The effectiveness of the proposed model has been evaluated through extensive experiments on real-world datasets, where the performance of our model is superior to that of the state-of-the-art methods. All the data and codes will be released upon acceptance.
- Abstract(参考訳): 近年、拡散モデルは視覚生成タスクにおいて顕著な能力を示している。
静的画像以外にも、現実的なビデオの生成にますます多くの研究が注がれている。
ビデオ生成は品質の要求が高いだけでなく、ビデオの連続性の確保にも挑戦している。
すべてのビデオ生成タスクの中で、人間のダンスのような人間関係のコンテンツは、人間の動きに関連する高い自由度のために、さらに生成することが困難である。
本稿では,DANCER (Dance Animation via Condition Enhancement and Rendering with Diffusion Model) という,最新の安定なビデオ拡散モデルに基づく現実的な単一人物舞踊合成のためのフレームワークを提案する。
ビデオ生成は、一般的に参照画像とビデオシーケンスでガイドされるので、2つの重要なモジュールをフレームワークに導入して、2つの入力をフルに活用する。
より具体的には、生成中の参照画像の詳細に焦点を合わせるために、外観拡張モジュール (AEM) を設計し、さらに、追加ドメインからのポーズ条件をキャプチャするために、Pose Rendering Module (PRM) を介して動き誘導を拡張する。
インターネットから大量のビデオデータを収集し,新しいデータセットTikTok-3Kを生成し,モデルトレーニングを強化する。
提案モデルの有効性は,提案モデルの性能が最先端の手法よりも優れている実世界のデータセット上での広範な実験を通じて評価されてきた。
すべてのデータとコードは、受け入れ次第リリースされます。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Latent Video Diffusion Models for High-Fidelity Long Video Generation [58.346702410885236]
低次元ラテント空間を用いた軽量映像拡散モデルを提案する。
また,1000フレーム以上の長編動画を生成できるように,遅延空間における階層的拡散も提案する。
我々のフレームワークは、以前の強力なベースラインよりもリアルで長いビデオを生成する。
論文 参考訳(メタデータ) (2022-11-23T18:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。