論文の概要: Global Position Aware Group Choreography using Large Language Model
- arxiv url: http://arxiv.org/abs/2503.09645v1
- Date: Wed, 12 Mar 2025 07:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:54:24.129810
- Title: Global Position Aware Group Choreography using Large Language Model
- Title(参考訳): 大規模言語モデルを用いたグローバル位置認識グループコレオグラフィ
- Authors: Haozhou Pang, Tianwei Ding, Lanshan He, Qi Gan,
- Abstract要約: 大規模言語モデル(LLM)の最近の進歩を生かしたグループ振付フレームワークを提案する。
我々のフレームワークは、連続した特徴を離散トークンに変換するトークンライザと、動きトークンを予測するために微調整されたLCMから構成される。
我々のフレームワークは、強い音楽相関とダンサーの一貫性を維持しながら、現実的で多様なグループダンスを生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Dance serves as a profound and universal expression of human culture, conveying emotions and stories through movements synchronized with music. Although some current works have achieved satisfactory results in the task of single-person dance generation, the field of multi-person dance generation remains relatively novel. In this work, we present a group choreography framework that leverages recent advancements in Large Language Models (LLM) by modeling the group dance generation problem as a sequence-to-sequence translation task. Our framework consists of a tokenizer that transforms continuous features into discrete tokens, and an LLM that is fine-tuned to predict motion tokens given the audio tokens. We show that by proper tokenization of input modalities and careful design of the LLM training strategies, our framework can generate realistic and diverse group dances while maintaining strong music correlation and dancer-wise consistency. Extensive experiments and evaluations demonstrate that our framework achieves state-of-the-art performance.
- Abstract(参考訳): ダンスは人間の文化の深遠で普遍的な表現として機能し、音楽と同期した動きを通じて感情や物語を伝える。
個人舞踊生成の課題に満足できる成果が得られた作品もあるが、多人数舞踊生成の分野はいまだに比較的新しいものである。
本稿では,大規模言語モデル(LLM)の最近の進歩を生かしたグループ振付フレームワークを提案する。
我々のフレームワークは、連続した特徴を離散トークンに変換するトークンライザと、オーディオトークンが与えられた動きトークンを予測するために微調整されたLCMとから構成される。
入力モダリティの適切なトークン化とLLMトレーニング戦略の注意深い設計により、我々のフレームワークは、強い音楽相関とダンサーの一貫性を維持しつつ、現実的で多様なグループダンスを生成できることを示す。
大規模な実験と評価により、我々のフレームワークが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Lodge++: High-quality and Long Dance Generation with Vivid Choreography Patterns [48.54956784928394]
Lodge++は、高品質で、超長い、鮮やかなダンスを生成するためのコレオグラフィーフレームワークである。
計算効率の課題に対処するため、Lodge++では、粗いダンスから罰金までのダンスを生成するための2段階の戦略を採用している。
Lodge++は,様々なダンスジャンルに適した超長いダンスを高速に生成できることを示す広範な実験によって検証されている。
論文 参考訳(メタデータ) (2024-10-27T09:32:35Z) - Scalable Group Choreography via Variational Phase Manifold Learning [8.504657927912076]
生成多様体の学習におけるグループダンス生成のための位相ベース変分生成モデルを提案する。
提案手法は,高忠実度群舞踊動作を実現し,無制限なダンサー生成を可能にする。
論文 参考訳(メタデータ) (2024-07-26T16:02:37Z) - Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment [87.20240797625648]
舞踊伴奏と呼ばれる3次元舞踊生成の分野における新しい課題を紹介する。
これは、リードダンサーの動きと、基礎となる音楽リズムと同期した「フォロワー」と呼ばれるダンスパートナーからの応答的な動きを生成する必要がある。
本稿では,GPTに基づくDuolandoモデルを提案する。このモデルでは,音楽の協調情報,リーダの動作,従者の動きに基づいて,後続のトークン化動作を自動回帰予測する。
論文 参考訳(メタデータ) (2024-03-27T17:57:02Z) - Controllable Group Choreography using Contrastive Diffusion [9.524877757674176]
音楽によるグループコレオグラフィーは、幅広い産業用途において大きな可能性を秘めている。
ダンサーとグループ間のつながりを高めるために,グループコントラスト拡散(GCD)戦略を導入する。
本研究は,グループダンスの動きを視覚的に捕食し,一貫した動作で再現する手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-29T11:59:12Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Rhythm is a Dancer: Music-Driven Motion Synthesis with Global Structure [47.09425316677689]
本稿では、入力ビートと同期した人間の動作の長期シーケンスを生成する音楽駆動型モーション合成フレームワークを提案する。
我々のフレームワークは、ビートだけでなく、音楽の内容によって制御される多様な動きの生成を可能にする。
論文 参考訳(メタデータ) (2021-11-23T21:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。