論文の概要: Every Image Listens, Every Image Dances: Music-Driven Image Animation
- arxiv url: http://arxiv.org/abs/2501.18801v1
- Date: Thu, 30 Jan 2025 23:38:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 14:03:20.655582
- Title: Every Image Listens, Every Image Dances: Music-Driven Image Animation
- Title(参考訳): すべてのイメージリスナー、すべてのイメージダンス:音楽駆動のイメージアニメーション
- Authors: Zhikang Dong, Weituo Hao, Ju-Chiang Wang, Peng Zhang, Pawel Polak,
- Abstract要約: MuseDanceは、音楽とテキストの両方の入力を使って画像を参照するエンド・ツー・エンドのモデルである。
既存のアプローチとは異なり、MuseDanceはポーズや深さシーケンスのような複雑なモーションガイダンス入力を必要としない。
本稿では,2,904本のダンスビデオと,それに対応する背景音楽とテキスト記述を含むマルチモーダルデータセットを提案する。
- 参考スコア(独自算出の注目度): 8.085267959520843
- License:
- Abstract: Image animation has become a promising area in multimodal research, with a focus on generating videos from reference images. While prior work has largely emphasized generic video generation guided by text, music-driven dance video generation remains underexplored. In this paper, we introduce MuseDance, an innovative end-to-end model that animates reference images using both music and text inputs. This dual input enables MuseDance to generate personalized videos that follow text descriptions and synchronize character movements with the music. Unlike existing approaches, MuseDance eliminates the need for complex motion guidance inputs, such as pose or depth sequences, making flexible and creative video generation accessible to users of all expertise levels. To advance research in this field, we present a new multimodal dataset comprising 2,904 dance videos with corresponding background music and text descriptions. Our approach leverages diffusion-based methods to achieve robust generalization, precise control, and temporal consistency, setting a new baseline for the music-driven image animation task.
- Abstract(参考訳): 画像アニメーションは、参照画像からビデオを生成することに焦点を当て、マルチモーダル研究において有望な領域となっている。
以前の研究は、テキストでガイドされたジェネリックビデオ生成に重点を置いていたが、音楽駆動のダンスビデオ生成はいまだに未発見のままである。
本稿では,音楽入力とテキスト入力の両方を用いて画像を参照するイノベーティブ・エンド・ツー・エンド・エンド・モデルであるMuseDanceを紹介する。
この二重入力により、MuseDanceはテキスト記述に従うパーソナライズされたビデオを生成し、音楽とキャラクターの動きを同期させることができる。
既存のアプローチとは異なり、MuseDanceはポーズや深度シーケンスなどの複雑なモーションガイダンス入力の必要性を排除し、フレキシブルでクリエイティブなビデオ生成を、すべての専門レベルのユーザからアクセスできるようにする。
この分野での研究を進めるために,2,904本のダンスビデオと,それに対応する背景音楽とテキスト記述を組み合わせたマルチモーダルデータセットを提案する。
提案手法は拡散に基づく手法を用いて,高能率な一般化,精密制御,時間的整合性を実現し,音楽駆動型画像アニメーションタスクの新たなベースラインを設定する。
関連論文リスト
- One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。
提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。
推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文 参考訳(メタデータ) (2024-08-29T16:58:10Z) - Dance Any Beat: Blending Beats with Visuals in Dance Video Generation [12.018432669719742]
音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。
我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用してダンスビデオを生成する。
AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。
論文 参考訳(メタデータ) (2024-05-15T11:33:07Z) - AnimateZero: Video Diffusion Models are Zero-Shot Image Animators [63.938509879469024]
我々はAnimateZeroを提案し、事前訓練されたテキスト・ビデオ拡散モデル、すなわちAnimateDiffを提案する。
外観制御のために,テキスト・ツー・イメージ(T2I)生成から中間潜伏子とその特徴を借りる。
時間的制御では、元のT2Vモデルのグローバルな時間的注意を位置補正窓の注意に置き換える。
論文 参考訳(メタデータ) (2023-12-06T13:39:35Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Make Pixels Dance: High-Dynamic Video Generation [13.944607760918997]
最先端のビデオ生成手法は、高い忠実さを維持しつつも、最小限のモーションでビデオクリップを生成する傾向がある。
ビデオ生成のためのテキスト命令と合わせて,第1フレームと第2フレームの両方のイメージ命令を組み込んだ,新しいアプローチであるPixelDanceを紹介する。
論文 参考訳(メタデータ) (2023-11-18T06:25:58Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - MetaDance: Few-shot Dancing Video Retargeting via Temporal-aware
Meta-learning [51.78302763617991]
ダンスビデオは、ソースビデオからターゲット人物にダンスの動きを転送するビデオを合成することを目的としている。
従来の作業では、パーソナライズされたモデルをトレーニングするために、数千フレームのターゲットの人の数分間のビデオを収集する必要があります。
最近の研究は、数枚のフレームを利用して、目に見えない人のビデオを合成することを学ぶ、数発のダンスビデオに取り組みました。
論文 参考訳(メタデータ) (2022-01-13T09:34:20Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。