論文の概要: Quantized GAN for Complex Music Generation from Dance Videos
- arxiv url: http://arxiv.org/abs/2204.00604v1
- Date: Fri, 1 Apr 2022 17:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 15:16:48.431072
- Title: Quantized GAN for Complex Music Generation from Dance Videos
- Title(参考訳): ダンス映像からの複雑な音楽生成のための量子化GAN
- Authors: Ye Zhu, Kyle Olszewski, Yu Wu, Panos Achlioptas, Menglei Chai, Yan Yan
and Sergey Tulyakov
- Abstract要約: D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
- 参考スコア(独自算出の注目度): 48.196705493763986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Dance2Music-GAN (D2M-GAN), a novel adversarial multi-modal
framework that generates complex musical samples conditioned on dance videos.
Our proposed framework takes dance video frames and human body motion as input,
and learns to generate music samples that plausibly accompany the corresponding
input. Unlike most existing conditional music generation works that generate
specific types of mono-instrumental sounds using symbolic audio representations
(e.g., MIDI), and that heavily rely on pre-defined musical synthesizers, in
this work we generate dance music in complex styles (e.g., pop, breakdancing,
etc.) by employing a Vector Quantized (VQ) audio representation, and leverage
both its generality and the high abstraction capacity of its symbolic and
continuous counterparts. By performing an extensive set of experiments on
multiple datasets, and following a comprehensive evaluation protocol, we assess
the generative quality of our approach against several alternatives. The
quantitative results, which measure the music consistency, beats
correspondence, and music diversity, clearly demonstrate the effectiveness of
our proposed method. Last but not least, we curate a challenging dance-music
dataset of in-the-wild TikTok videos, which we use to further demonstrate the
efficacy of our approach in real-world applications - and which we hope to
serve as a starting point for relevant future research.
- Abstract(参考訳): D2M-GAN(Dance2Music-GAN、Dance2Music-GAN)は、ダンスビデオに条件付けされた複雑な音楽サンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
シンボリックなオーディオ表現(例えばmidi)を用いて特定の種類のモノインストゥルメンタルな音を生成する既存の条件付き音楽生成作品(例えば、midi)とは異なり、本作品では、ベクトル量子化(vq)オーディオ表現を用いて複雑なスタイル(例えば、ポップ、ブレイクダンスなど)のダンス音楽を生成し、その一般性とそのシンボリックおよび連続的な表現の抽象化能力の両方を活用する。
複数のデータセットで広範な実験を行い、包括的な評価プロトコルに従って、いくつかの代替案に対して、このアプローチのジェネレーティブ品質を評価する。
提案手法の有効性を明らかにするために,音楽の一貫性,ビート対応,音楽の多様性を定量的に測定した。
最後に重要なこととして、私たちは、現実世界のアプリケーションにおける我々のアプローチの有効性をさらに実証するために使用される、野生のtiktokビデオの難しいダンス音楽データセットをキュレーションします。
関連論文リスト
- Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Long-Term Rhythmic Video Soundtracker [37.082768654951465]
我々は、長期条件波形を合成する新しいフレームワーク、LORIS(Long-Term Rhythmic Video Soundtracker)を提案する。
モデルの適用性をダンスからフロアエクササイズやフィギュアスケートといった複数のスポーツシナリオに拡張する。
我々のモデルは、最先端の音楽的品質とリズム対応を備えた長期的なサウンドトラックを生成する。
論文 参考訳(メタデータ) (2023-05-02T10:58:29Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。