論文の概要: Self-Supervised Learning of Music-Dance Representation through
Explicit-Implicit Rhythm Synchronization
- arxiv url: http://arxiv.org/abs/2207.03190v1
- Date: Thu, 7 Jul 2022 09:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 23:26:27.833950
- Title: Self-Supervised Learning of Music-Dance Representation through
Explicit-Implicit Rhythm Synchronization
- Title(参考訳): 明示的簡素なリズム同期による音楽-ダンス表現の自己教師付き学習
- Authors: Jiashuo Yu, Junfu Pu, Ying Cheng, Rui Feng, Ying Shan
- Abstract要約: 音楽距離表現は、(a)ダンス分類、(b)音楽距離検索、(c)音楽距離の3つの下流タスクに適用することができる。
音楽のリズム分析にインスパイアされた視覚的外観と動きの手がかりに基づいてダンスリズムを導出し、その後、音響強度の振幅によって抽出される音楽リズムと時間的に一致させる。
- 参考スコア(独自算出の注目度): 22.279424952432677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although audio-visual representation has been proved to be applicable in many
downstream tasks, the representation of dancing videos, which is more specific
and always accompanied by music with complex auditory contents, remains
challenging and uninvestigated. Considering the intrinsic alignment between the
cadent movement of dancer and music rhythm, we introduce MuDaR, a novel
Music-Dance Representation learning framework to perform the synchronization of
music and dance rhythms both in explicit and implicit ways. Specifically, we
derive the dance rhythms based on visual appearance and motion cues inspired by
the music rhythm analysis. Then the visual rhythms are temporally aligned with
the music counterparts, which are extracted by the amplitude of sound
intensity. Meanwhile, we exploit the implicit coherence of rhythms implied in
audio and visual streams by contrastive learning. The model learns the joint
embedding by predicting the temporal consistency between audio-visual pairs.
The music-dance representation, together with the capability of detecting audio
and visual rhythms, can further be applied to three downstream tasks: (a) dance
classification, (b) music-dance retrieval, and (c) music-dance retargeting.
Extensive experiments demonstrate that our proposed framework outperforms other
self-supervised methods by a large margin.
- Abstract(参考訳): 視聴覚表現は多くの下流課題に応用できることが証明されているが、より具体的であり、常に複雑な聴覚コンテンツを持つ音楽を伴うダンスビデオの表現は、いまだに困難かつ未調査のままである。
舞踊のリズムとリズムのリズムのリズムの因果関係を考慮し,音楽とダンスのリズムを明示的かつ暗黙的に同期させる新しい音楽・ダンス表現学習フレームワークであるMuDaRを紹介する。
具体的には、音楽リズム分析にインスパイアされた視覚的外観と動きの手がかりに基づいてダンスリズムを導出する。
そして、音の強度の振幅によって抽出された音楽のリズムを時間的に調整する。
一方,音声や視覚ストリームに含まれるリズムの暗黙のコヒーレンスを,コントラスト学習によって活用する。
モデルは、音声と視覚のペア間の時間的一貫性を予測することによって、関節埋め込みを学習する。
音楽ダンス表現は、オーディオと視覚のリズムを検出する能力とともに、3つの下流タスクにさらに適用することができる。
(a)舞踊の分類。
(b)音楽ダンスの検索及び
c) music-dance retargeting。
広範な実験により,提案フレームワークが他の自己監督型手法を大差で上回ることを示した。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Dual Learning Music Composition and Dance Choreography [57.55406449959893]
音楽とダンスは常に人間の活動の柱として共存しており、文化的、社会的、娯楽的な機能に大きく貢献している。
近年の研究では、音楽に調和したダンスシーケンスの生成モデルについて研究されている。
両タスクを二重学習アプローチで共同でモデル化する,新しい拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T09:20:28Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - DanceIt: Music-inspired Dancing Video Synthesis [38.87762996956861]
本稿では,コンピュータビジョンシステム内での人間関係のこのような能力の再現を提案する。
提案システムは3つのモジュールから構成される。
生成されたダンスビデオは、音楽の内容とリズムにマッチします。
論文 参考訳(メタデータ) (2020-09-17T02:29:13Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Music2Dance: DanceNet for Music-driven Dance Generation [11.73506542921528]
本研究では,音楽のスタイル,リズム,メロディを制御信号とする自己回帰生成モデルDanceNetを提案する。
プロのダンサーによる複数の同期音楽ダンスペアをキャプチャし、高品質な音楽ダンスペアデータセットを構築する。
論文 参考訳(メタデータ) (2020-02-02T17:18:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。