Fugu-MT 論文翻訳(概要): Learning Music-Dance Representations through Explicit-Implicit Rhythm Synchronization

論文の概要: Learning Music-Dance Representations through Explicit-Implicit Rhythm Synchronization

arxiv url: http://arxiv.org/abs/2207.03190v2
Date: Thu, 10 Aug 2023 08:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-11 16:45:16.347629
Title: Learning Music-Dance Representations through Explicit-Implicit Rhythm Synchronization
Title（参考訳）: 明示的簡易リズム同期による音楽ダンス表現の学習
Authors: Jiashuo Yu, Junfu Pu, Ying Cheng, Rui Feng, Ying Shan
Abstract要約: 音楽距離表現は、(a)ダンス分類、(b)音楽距離検索、(c)音楽距離の3つの下流タスクに適用することができる。音楽のリズム分析にインスパイアされた視覚的外観と動きの手がかりに基づいてダンスリズムを導出し、その後、音響強度の振幅によって抽出される音楽リズムと時間的に一致させる。
参考スコア（独自算出の注目度）: 22.279424952432677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although audio-visual representation has been proved to be applicable in many downstream tasks, the representation of dancing videos, which is more specific and always accompanied by music with complex auditory contents, remains challenging and uninvestigated. Considering the intrinsic alignment between the cadent movement of dancer and music rhythm, we introduce MuDaR, a novel Music-Dance Representation learning framework to perform the synchronization of music and dance rhythms both in explicit and implicit ways. Specifically, we derive the dance rhythms based on visual appearance and motion cues inspired by the music rhythm analysis. Then the visual rhythms are temporally aligned with the music counterparts, which are extracted by the amplitude of sound intensity. Meanwhile, we exploit the implicit coherence of rhythms implied in audio and visual streams by contrastive learning. The model learns the joint embedding by predicting the temporal consistency between audio-visual pairs. The music-dance representation, together with the capability of detecting audio and visual rhythms, can further be applied to three downstream tasks: (a) dance classification, (b) music-dance retrieval, and (c) music-dance retargeting. Extensive experiments demonstrate that our proposed framework outperforms other self-supervised methods by a large margin.
Abstract（参考訳）: 視聴覚表現は多くの下流課題に応用できることが証明されているが、より具体的であり、常に複雑な聴覚コンテンツを持つ音楽を伴うダンスビデオの表現は、いまだに困難かつ未調査のままである。舞踊のリズムとリズムのリズムのリズムの因果関係を考慮し,音楽とダンスのリズムを明示的かつ暗黙的に同期させる新しい音楽・ダンス表現学習フレームワークであるMuDaRを紹介する。具体的には、音楽リズム分析にインスパイアされた視覚的外観と動きの手がかりに基づいてダンスリズムを導出する。そして、音の強度の振幅によって抽出された音楽のリズムを時間的に調整する。一方,音声や視覚ストリームに含まれるリズムの暗黙のコヒーレンスを,コントラスト学習によって活用する。モデルは、音声と視覚のペア間の時間的一貫性を予測することによって、関節埋め込みを学習する。音楽ダンス表現は、オーディオと視覚のリズムを検出する能力とともに、3つの下流タスクにさらに適用することができる。 (a)舞踊の分類。 (b)音楽ダンスの検索及び c) music-dance retargeting。広範な実験により,提案フレームワークが他の自己監督型手法を大差で上回ることを示した。

関連論文リスト

Reimagining Dance: Real-time Music Co-creation between Dancers and AI [5.708964539699851]
本研究では,ダンサーが動きによって動的に音楽環境を形成できるシステムを提案する。我々のマルチモーダルアーキテクチャは、ダンスの動きに応じて、事前に録音された音楽クリップをインテリジェントに組み合わせることで、コヒーレントな音楽構成を生成する。
論文参考訳（メタデータ） (2025-06-13T17:56:53Z)
Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation [22.729568599120846]
本研究では、リズム認識機能表現を強化するためにゲーティング機構を活用する新しいフレームワークであるDancebaを提案する。位相に基づくリズム抽出(PRE)により、音楽相データからリズム情報を正確に抽出する。 TGCA(Temporal-Gated Causal Attention)は、グローバルリズミカルな特徴に焦点を当てる。上肢と下肢の運動を別々にモデル化する並列マンバ運動モデリング(PMMM)アーキテクチャ。
論文参考訳（メタデータ） (2025-03-21T17:42:50Z)
GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music [22.352036716156967]
GCDanceは、音楽とテキストの両方のプロンプトに条件付きジャンル固有のダンスモーションを生成するための分類器なし拡散フレームワークである。提案手法は,高レベルな事前学習音楽基礎モデルと手作りのマルチグラニュラリティ特徴融合機能を組み合わせることで,音楽の特徴を抽出する。
論文参考訳（メタデータ） (2025-02-25T15:53:18Z)
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。 MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-10-16T18:44:56Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-24T13:06:43Z)
Dual Learning Music Composition and Dance Choreography [57.55406449959893]
音楽とダンスは常に人間の活動の柱として共存しており、文化的、社会的、娯楽的な機能に大きく貢献している。近年の研究では、音楽に調和したダンスシーケンスの生成モデルについて研究されている。両タスクを二重学習アプローチで共同でモデル化する,新しい拡張を提案する。
論文参考訳（メタデータ） (2022-01-28T09:20:28Z)
Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文参考訳（メタデータ） (2021-12-03T09:37:26Z)
DanceIt: Music-inspired Dancing Video Synthesis [38.87762996956861]
本稿では,コンピュータビジョンシステム内での人間関係のこのような能力の再現を提案する。提案システムは3つのモジュールから構成される。生成されたダンスビデオは、音楽の内容とリズムにマッチします。
論文参考訳（メタデータ） (2020-09-17T02:29:13Z)
Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文参考訳（メタデータ） (2020-04-20T17:53:46Z)
Music2Dance: DanceNet for Music-driven Dance Generation [11.73506542921528]
本研究では,音楽のスタイル,リズム,メロディを制御信号とする自己回帰生成モデルDanceNetを提案する。プロのダンサーによる複数の同期音楽ダンスペアをキャプチャし、高品質な音楽ダンスペアデータセットを構築する。
論文参考訳（メタデータ） (2020-02-02T17:18:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。