論文の概要: Music to Dance as Language Translation using Sequence Models
- arxiv url: http://arxiv.org/abs/2403.15569v1
- Date: Fri, 22 Mar 2024 18:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:02:34.101808
- Title: Music to Dance as Language Translation using Sequence Models
- Title(参考訳): シーケンスモデルを用いた言語翻訳としての音楽とダンス
- Authors: André Correia, Luís A. Alexandre,
- Abstract要約: MDLTは、振付生成問題を翻訳タスクとしてフレーム化する新しい手法である。
本稿では,トランスフォーマーアーキテクチャを利用したMDLTと,Mambaアーキテクチャを用いたMDLTの2つのバリエーションを提案する。
我々はAIST++とPhantomDanceのデータセットを使ってロボットアームにダンスを教えるが、本手法は完全なヒューマノイドロボットに適用できる。
- 参考スコア(独自算出の注目度): 1.4255659581428335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Synthesising appropriate choreographies from music remains an open problem. We introduce MDLT, a novel approach that frames the choreography generation problem as a translation task. Our method leverages an existing data set to learn to translate sequences of audio into corresponding dance poses. We present two variants of MDLT: one utilising the Transformer architecture and the other employing the Mamba architecture. We train our method on AIST++ and PhantomDance data sets to teach a robotic arm to dance, but our method can be applied to a full humanoid robot. Evaluation metrics, including Average Joint Error and Frechet Inception Distance, consistently demonstrate that, when given a piece of music, MDLT excels at producing realistic and high-quality choreography. The code can be found at github.com/meowatthemoon/MDLT.
- Abstract(参考訳): 適切な振付を音楽から合成することは未解決の問題である。
MDLTは、振付生成問題を翻訳タスクとしてフレーム化する新しい手法である。
提案手法は,既存のデータセットを利用して,音声のシーケンスを対応するダンスポーズに変換することを学習する。
本稿では,トランスフォーマーアーキテクチャを利用したMDLTと,Mambaアーキテクチャを用いたMDLTの2つのバリエーションを提案する。
我々はAIST++とPhantomDanceのデータセットを使ってロボットアームにダンスを教えるが、本手法は完全なヒューマノイドロボットに適用できる。
Average Joint Error(英語版)やFrechet Inception Distance(英語版)などの評価指標は、音楽が与えられた場合、MDLTは現実的で高品質な振付を制作するのに優れていることを一貫して示している。
コードはgithub.com/meowatthemoon/MDLTで見ることができる。
関連論文リスト
- DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance [50.01162760878841]
DCMは、カメラの動きとダンスモーションと音楽オーディオを組み合わせた、新しいマルチモーダルな3Dデータセットである。
このデータセットは、アニメコミュニティからのペアダンスカメラ音楽データの108のダンスシーケンス(3.2時間)を含む。
本研究では,新しいボディアテンション損失と条件分離戦略を組み込んだトランスフォーマーに基づく拡散モデルであるDanceCamera3Dを提案する。
論文 参考訳(メタデータ) (2024-03-20T15:24:57Z) - LM2D: Lyrics- and Music-Driven Dance Synthesis [28.884929875333846]
LM2Dは、音楽と歌詞の両方で、ひとつの拡散生成ステップでダンスコンディションを作成するように設計されている。
ポーズ推定技術を用いて,音楽と歌詞の両方を包含する最初の3次元ダンスモーションデータセットを提案する。
その結果、LM2Dは歌詞と音楽の両方にマッチするリアルで多様なダンスを制作できることを示した。
論文 参考訳(メタデータ) (2024-03-14T13:59:04Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Semi-Supervised Learning for In-Game Expert-Level Music-to-Dance
Translation [0.0]
近年のロールプレイングゲームにおいて,音楽間翻訳は強力な機能である。
我々は、振付理論に基づいて、翻訳問題を断片的なダンスフレーズ検索問題として再定式化する。
本手法は多種多様な音楽スタイルにまたがって一般化し,ゲームプレイヤのエキスパートレベルの振付に成功している。
論文 参考訳(メタデータ) (2020-09-27T07:08:04Z) - ChoreoNet: Towards Music to Dance Synthesis with Choreographic Action
Unit [28.877908457607678]
人間の振付処理を模倣する2段階の音楽合成フレームワークChoreoNetを設計する。
本フレームワークはまず,音楽とCAUシーケンス間のマッピング関係を学習するためのCAU予測モデルを考案する。
そこで我々は,CAUシーケンスを連続的なダンス動作に変換するための空間的時間的インペイントモデルを考案した。
論文 参考訳(メタデータ) (2020-09-16T12:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。