論文の概要: Quantized GAN for Complex Music Generation from Dance Videos
- arxiv url: http://arxiv.org/abs/2204.00604v1
- Date: Fri, 1 Apr 2022 17:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 15:16:48.431072
- Title: Quantized GAN for Complex Music Generation from Dance Videos
- Title(参考訳): ダンス映像からの複雑な音楽生成のための量子化GAN
- Authors: Ye Zhu, Kyle Olszewski, Yu Wu, Panos Achlioptas, Menglei Chai, Yan Yan
and Sergey Tulyakov
- Abstract要約: D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
- 参考スコア(独自算出の注目度): 48.196705493763986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Dance2Music-GAN (D2M-GAN), a novel adversarial multi-modal
framework that generates complex musical samples conditioned on dance videos.
Our proposed framework takes dance video frames and human body motion as input,
and learns to generate music samples that plausibly accompany the corresponding
input. Unlike most existing conditional music generation works that generate
specific types of mono-instrumental sounds using symbolic audio representations
(e.g., MIDI), and that heavily rely on pre-defined musical synthesizers, in
this work we generate dance music in complex styles (e.g., pop, breakdancing,
etc.) by employing a Vector Quantized (VQ) audio representation, and leverage
both its generality and the high abstraction capacity of its symbolic and
continuous counterparts. By performing an extensive set of experiments on
multiple datasets, and following a comprehensive evaluation protocol, we assess
the generative quality of our approach against several alternatives. The
quantitative results, which measure the music consistency, beats
correspondence, and music diversity, clearly demonstrate the effectiveness of
our proposed method. Last but not least, we curate a challenging dance-music
dataset of in-the-wild TikTok videos, which we use to further demonstrate the
efficacy of our approach in real-world applications - and which we hope to
serve as a starting point for relevant future research.
- Abstract(参考訳): D2M-GAN(Dance2Music-GAN、Dance2Music-GAN)は、ダンスビデオに条件付けされた複雑な音楽サンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
シンボリックなオーディオ表現(例えばmidi)を用いて特定の種類のモノインストゥルメンタルな音を生成する既存の条件付き音楽生成作品(例えば、midi)とは異なり、本作品では、ベクトル量子化(vq)オーディオ表現を用いて複雑なスタイル(例えば、ポップ、ブレイクダンスなど)のダンス音楽を生成し、その一般性とそのシンボリックおよび連続的な表現の抽象化能力の両方を活用する。
複数のデータセットで広範な実験を行い、包括的な評価プロトコルに従って、いくつかの代替案に対して、このアプローチのジェネレーティブ品質を評価する。
提案手法の有効性を明らかにするために,音楽の一貫性,ビート対応,音楽の多様性を定量的に測定した。
最後に重要なこととして、私たちは、現実世界のアプリケーションにおける我々のアプローチの有効性をさらに実証するために使用される、野生のtiktokビデオの難しいダンス音楽データセットをキュレーションします。
関連論文リスト
- MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation [6.060426136203966]
四元数を考慮した視覚舞踊合成のための四元数拡張注意ネットワーク(QEAN)を提案する。
第一に、SPEは位置情報を回転的に自己注意に埋め込み、運動シーケンスと音声シーケンスの特徴をよりよく学習する。
第2に、QRAは一連の四元数という形で3Dモーション特徴とオーディオ特徴を表現・融合し、モデルが音楽とダンスの時間的調整をよりよく学習できるようにする。
論文 参考訳(メタデータ) (2024-03-18T09:58:43Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Long-Term Rhythmic Video Soundtracker [37.082768654951465]
我々は、長期条件波形を合成する新しいフレームワーク、LORIS(Long-Term Rhythmic Video Soundtracker)を提案する。
モデルの適用性をダンスからフロアエクササイズやフィギュアスケートといった複数のスポーツシナリオに拡張する。
我々のモデルは、最先端の音楽的品質とリズム対応を備えた長期的なサウンドトラックを生成する。
論文 参考訳(メタデータ) (2023-05-02T10:58:29Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。