論文の概要: MotionBeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding
- arxiv url: http://arxiv.org/abs/2510.13244v1
- Date: Wed, 15 Oct 2025 07:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.551008
- Title: MotionBeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding
- Title(参考訳): MotionBeat: Embodied Contrastive LearningとBar-Equivariant Contact-Aware Encodingによるモーションアライメント音楽表現
- Authors: Xuanchen Wang, Heng Wang, Weidong Cai,
- Abstract要約: MotionBeatは、モーションアラインな音楽表現学習のためのフレームワークである。
我々は、MotionBeatが、最先端のオーディオエンコーダを音楽からダンス生成で上回っていることを示す。
- 参考スコア(独自算出の注目度): 13.25040795516169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music is both an auditory and an embodied phenomenon, closely linked to human motion and naturally expressed through dance. However, most existing audio representations neglect this embodied dimension, limiting their ability to capture rhythmic and structural cues that drive movement. We propose MotionBeat, a framework for motion-aligned music representation learning. MotionBeat is trained with two newly proposed objectives: the Embodied Contrastive Loss (ECL), an enhanced InfoNCE formulation with tempo-aware and beat-jitter negatives to achieve fine-grained rhythmic discrimination, and the Structural Rhythm Alignment Loss (SRAL), which ensures rhythm consistency by aligning music accents with corresponding motion events. Architecturally, MotionBeat introduces bar-equivariant phase rotations to capture cyclic rhythmic patterns and contact-guided attention to emphasize motion events synchronized with musical accents. Experiments show that MotionBeat outperforms state-of-the-art audio encoders in music-to-dance generation and transfers effectively to beat tracking, music tagging, genre and instrument classification, emotion recognition, and audio-visual retrieval. Our project demo page: https://motionbeat2025.github.io/.
- Abstract(参考訳): 音楽は、人間の動きと密接に結びつき、ダンスを通して自然に表現される、聴覚と体現現象の両方である。
しかし、既存の音響表現の多くは、このエンボディド次元を無視しており、動きを駆動するリズムや構造的な手がかりを捉える能力を制限する。
本研究では,モーションアラインな音楽表現学習のためのフレームワークであるMotionBeatを提案する。
MotionBeatは、Embodied Contrastive Loss (ECL)、Tempo-aware と beat-jitter negatives による拡張InfoNCE の定式化により、微粒なリズムの識別が可能となり、また、音楽アクセントを対応するモーションイベントに合わせることでリズムの整合性を確保する構造リズムアライメント・ロス (SRAL) という2つの新しい目的によってトレーニングされている。
建築面では、MotionBeatは、周期的なリズムパターンと接触誘導の注意を捉え、音楽アクセントと同期された動きイベントを強調するために、バー同変位相回転を導入している。
実験により、MotionBeatは、最先端のオーディオエンコーダを音楽からダンス生成で上回り、ビートトラッキング、音楽タグ付け、ジャンルと楽器の分類、感情認識、およびオーディオ視覚検索に効果的に転送することを示した。
私たちのプロジェクトのデモページは、https://motionbeat2025.github.io/です。
関連論文リスト
- Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation [22.729568599120846]
本研究では、リズム認識機能表現を強化するためにゲーティング機構を活用する新しいフレームワークであるDancebaを提案する。
位相に基づくリズム抽出(PRE)により、音楽相データからリズム情報を正確に抽出する。
TGCA(Temporal-Gated Causal Attention)は、グローバルリズミカルな特徴に焦点を当てる。
上肢と下肢の運動を別々にモデル化する並列マンバ運動モデリング(PMMM)アーキテクチャ。
論文 参考訳(メタデータ) (2025-03-21T17:42:50Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Learning Music-Dance Representations through Explicit-Implicit Rhythm
Synchronization [22.279424952432677]
音楽距離表現は、(a)ダンス分類、(b)音楽距離検索、(c)音楽距離の3つの下流タスクに適用することができる。
音楽のリズム分析にインスパイアされた視覚的外観と動きの手がかりに基づいてダンスリズムを導出し、その後、音響強度の振幅によって抽出される音楽リズムと時間的に一致させる。
論文 参考訳(メタデータ) (2022-07-07T09:44:44Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。