論文の概要: MAGMA: Music Aligned Generative Motion Autodecoder
- arxiv url: http://arxiv.org/abs/2309.01202v1
- Date: Sun, 3 Sep 2023 15:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:54:37.053622
- Title: MAGMA: Music Aligned Generative Motion Autodecoder
- Title(参考訳): MAGMA:音楽対応ジェネレーション・モーション・オートデコーダ
- Authors: Sohan Anisetty, Amit Raj, James Hays
- Abstract要約: VQ-VAE(Vector Quantized-Variational Autoencoder)を用いた2段階のダンス生成手法を提案する。
リブロサを用いたナイーブな音楽特徴抽出と、最先端の音声圧縮アルゴリズムによって生成されたディープオーディオ表現を比較することで、音楽表現の重要性を評価する。
提案手法は,音楽対モーション生成ベンチマークの最先端結果を実現し,より長い動き列をリアルタイムに生成することを可能にする。
- 参考スコア(独自算出の注目度): 15.825872274297735
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mapping music to dance is a challenging problem that requires spatial and
temporal coherence along with a continual synchronization with the music's
progression. Taking inspiration from large language models, we introduce a
2-step approach for generating dance using a Vector Quantized-Variational
Autoencoder (VQ-VAE) to distill motion into primitives and train a Transformer
decoder to learn the correct sequencing of these primitives. We also evaluate
the importance of music representations by comparing naive music feature
extraction using Librosa to deep audio representations generated by
state-of-the-art audio compression algorithms. Additionally, we train
variations of the motion generator using relative and absolute positional
encodings to determine the effect on generated motion quality when generating
arbitrarily long sequence lengths. Our proposed approach achieve
state-of-the-art results in music-to-motion generation benchmarks and enables
the real-time generation of considerably longer motion sequences, the ability
to chain multiple motion sequences seamlessly, and easy customization of motion
sequences to meet style requirements.
- Abstract(参考訳): 音楽のダンスへのマッピングは、音楽の進行と連続的な同期とともに、空間的および時間的コヒーレンスを必要とする難しい問題である。
大規模言語モデルからインスピレーションを得て、ベクトル量子化可変オートエンコーダ(VQ-VAE)を用いてダンスを生成する2段階のアプローチを導入し、動きをプリミティブに蒸留し、トランスフォーマーデコーダを訓練してこれらのプリミティブの正しいシークエンシングを学習する。
また、librosaを用いたナイーブな音楽特徴抽出と、最先端オーディオ圧縮アルゴリズムによって生成された深い音声表現との比較により、音楽表現の重要性を評価する。
さらに、相対的および絶対的な位置エンコーディングを用いて動き発生器のバリエーションを訓練し、任意に長いシーケンス長を生成する場合の運動品質への影響を判定する。
提案手法は,音楽対運動生成ベンチマークにおいて最先端の結果を達成し,かなり長い動き列をリアルタイムに生成し,複数の動き列をシームレスに連鎖させ,スタイル要件を満たす動き列のカスタマイズを容易にする。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - DiffusionPhase: Motion Diffusion in Frequency Domain [69.811762407278]
そこで本研究では,テキスト記述から高品質な人間の動作系列を生成する学習手法を提案する。
既存の技術は、任意の長さの動き列を生成する際に、動きの多様性と滑らかな遷移に苦しむ。
動作空間をコンパクトで表現力のあるパラメータ化位相空間に変換するネットワークエンコーダを開発する。
論文 参考訳(メタデータ) (2023-12-07T04:39:22Z) - StyleInV: A Temporal Style Modulated Inversion Network for Unconditional
Video Generation [73.54398908446906]
本稿では,GANのための学習型反転ネットワークを用いた新しいモーションジェネレータの設計を提案する。
本手法は,既訓練のStyleGANジェネレータとエンコーダをペアにした場合に,簡単な微調整でスタイル転送をサポートする。
論文 参考訳(メタデータ) (2023-08-31T17:59:33Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - Music-driven Dance Regeneration with Controllable Key Pose Constraints [17.05495504855978]
制御可能なキーポーズ制約を用いた音楽駆動ダンスモーション合成のための新しいフレームワークを提案する。
本モデルでは、音楽と動き表現のための2つのシングルモーダル変換器エンコーダと、ダンスモーション生成のためのクロスモーダル変換器デコーダを備える。
論文 参考訳(メタデータ) (2022-07-08T04:26:45Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE [36.9033909878202]
トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
論文 参考訳(メタデータ) (2021-05-10T03:44:03Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。