論文の概要: How Animals Dance (When You're Not Looking)
- arxiv url: http://arxiv.org/abs/2505.23738v1
- Date: Thu, 29 May 2025 17:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.07023
- Title: How Animals Dance (When You're Not Looking)
- Title(参考訳): 動物の踊り方(見ていないとき)
- Authors: Xiaojuan Wang, Aleksander Holynski, Brian Curless, Ira Kemelmacher, Steve Seitz,
- Abstract要約: 本稿では,動物舞踊ビデオを生成するための枠組みを提案する。
入力拡散を最大6回行うことで、最大30秒のダンスビデオを生成することができる。
- 参考スコア(独自算出の注目度): 50.76342313977405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a keyframe-based framework for generating music-synchronized, choreography aware animal dance videos. Starting from a few keyframes representing distinct animal poses -- generated via text-to-image prompting or GPT-4o -- we formulate dance synthesis as a graph optimization problem: find the optimal keyframe structure that satisfies a specified choreography pattern of beats, which can be automatically estimated from a reference dance video. We also introduce an approach for mirrored pose image generation, essential for capturing symmetry in dance. In-between frames are synthesized using an video diffusion model. With as few as six input keyframes, our method can produce up to 30 second dance videos across a wide range of animals and music tracks.
- Abstract(参考訳): 音楽同期・振付を意識した動物舞踊ビデオを生成するためのキーフレームベースのフレームワークを提案する。
異なる動物のポーズを表すいくつかのキーフレーム(テキストから画像へのプロンプトまたはGPT-4o)から始まり、グラフ最適化問題としてダンス合成を定式化します。
また,舞踊における対称性の獲得に不可欠なミラーポーズ画像生成手法を提案する。
フレーム間をビデオ拡散モデルで合成する。
入力キーフレームが6つもあれば、さまざまな動物や音楽トラックで最大30秒のダンスビデオを作成できます。
関連論文リスト
- X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。
単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文 参考訳(メタデータ) (2025-02-24T18:47:54Z) - Every Image Listens, Every Image Dances: Music-Driven Image Animation [8.085267959520843]
MuseDanceは、音楽とテキストの両方の入力を使って画像を参照するエンド・ツー・エンドのモデルである。
既存のアプローチとは異なり、MuseDanceはポーズや深さシーケンスのような複雑なモーションガイダンス入力を必要としない。
本稿では,2,904本のダンスビデオと,それに対応する背景音楽とテキスト記述を含むマルチモーダルデータセットを提案する。
論文 参考訳(メタデータ) (2025-01-30T23:38:51Z) - DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis [49.614150163184064]
ダンスカメラの動きは、可変長の連続的なシーケンスと、複数のカメラの切り替えをシミュレートする突然の変化の両方を含む。
本稿では,この課題をアニメーター検出,合成,ツイーン関数予測という3段階のプロセスとして定式化し,撮影知識を統合することを提案する。
この定式化に続いて、人間のアニメーション手順を模倣し、可変長の強力な制御性を示す新しいエンドツーエンドのダンスカメラフレームワーク textbfDanceCamAnimator を設計する。
論文 参考訳(メタデータ) (2024-09-23T11:20:44Z) - Dance Any Beat: Blending Beats with Visuals in Dance Video Generation [12.018432669719742]
音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。
我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用してダンスビデオを生成する。
AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。
論文 参考訳(メタデータ) (2024-05-15T11:33:07Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - MetaDance: Few-shot Dancing Video Retargeting via Temporal-aware
Meta-learning [51.78302763617991]
ダンスビデオは、ソースビデオからターゲット人物にダンスの動きを転送するビデオを合成することを目的としている。
従来の作業では、パーソナライズされたモデルをトレーニングするために、数千フレームのターゲットの人の数分間のビデオを収集する必要があります。
最近の研究は、数枚のフレームを利用して、目に見えない人のビデオを合成することを学ぶ、数発のダンスビデオに取り組みました。
論文 参考訳(メタデータ) (2022-01-13T09:34:20Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。