論文の概要: Flat latent manifolds for music improvisation between human and machine
- arxiv url: http://arxiv.org/abs/2202.12243v1
- Date: Wed, 23 Feb 2022 09:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 18:17:16.266660
- Title: Flat latent manifolds for music improvisation between human and machine
- Title(参考訳): 人間と機械間の即興演奏のためのフラット潜在多様体
- Authors: Nutan Chen, Djalel Benbouzid, Francesco Ferroni, Mathis Nitschke,
Luciano Pinna, Patrick van der Smagt
- Abstract要約: 相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。
学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。
そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
- 参考スコア(独自算出の注目度): 9.571383193449648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of machine learning in artistic music generation leads to
controversial discussions of the quality of art, for which objective
quantification is nonsensical. We therefore consider a music-generating
algorithm as a counterpart to a human musician, in a setting where reciprocal
improvisation is to lead to new experiences, both for the musician and the
audience. To obtain this behaviour, we resort to the framework of recurrent
Variational Auto-Encoders (VAE) and learn to generate music, seeded by a human
musician. In the learned model, we generate novel musical sequences by
interpolation in latent space. Standard VAEs however do not guarantee any form
of smoothness in their latent representation. This translates into abrupt
changes in the generated music sequences. To overcome these limitations, we
regularise the decoder and endow the latent space with a flat Riemannian
manifold, i.e., a manifold that is isometric to the Euclidean space. As a
result, linearly interpolating in the latent space yields realistic and smooth
musical changes that fit the type of machine--musician interactions we aim for.
We provide empirical evidence for our method via a set of experiments on music
datasets and we deploy our model for an interactive jam session with a
professional drummer. The live performance provides qualitative evidence that
the latent representation can be intuitively interpreted and exploited by the
drummer to drive the interplay. Beyond the musical application, our approach
showcases an instance of human-centred design of machine-learning models,
driven by interpretability and the interaction with the end user.
- Abstract(参考訳): 芸術音楽生成における機械学習の使用は、客観的な定量化が非意味である芸術の質に関する議論を引き起こす。
そこで我々は,音楽生成アルゴリズムを,ミュージシャンとオーディエンスの両方にとって,相互即興が新たな体験につながるような環境において,人間ミュージシャンと対向するものであると考える。
この動作を得るためには、反復的変分オートエンコーダ(vae)の枠組みを用いて、人間のミュージシャンがシードした音楽を生成することを学ぶ。
学習モデルでは、潜在空間における補間による新しい音楽列を生成する。
しかしながら、標準的なVAEは、その潜在表現の滑らかさを保証しない。
これは生成された音楽シーケンスの急激な変化に変換される。
これらの制限を克服するために、デコーダを定式化し、平坦なリーマン多様体、すなわちユークリッド空間に等尺な多様体で潜在空間を与える。
その結果、潜在空間における線形補間は、我々が目指す機械-音楽相互作用のタイプに適合する現実的で滑らかな音楽変化をもたらす。
我々は,音楽データセットに関する一連の実験を通して経験的証拠を提供し,プロのドラマーと対話的なジャムセッションにモデルをデプロイする。
ライブパフォーマンスは、潜在表現を直感的に解釈し、ドラマーがインタープレイを駆動できるという定性的な証拠を提供する。
音楽的応用の他に,本手法では,解釈可能性とエンドユーザとのインタラクションによって駆動される,機械学習モデルの人間中心設計の例を示す。
関連論文リスト
- MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation [18.181382408551574]
本稿では,口語記述から歌声生成への新たな課題を提案する。
生成されたコンテンツと口語的人間の表現の整合性に焦点を当てている。
この課題は、AIモデル内の言語理解と聴覚表現のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-07-03T15:12:36Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - A Survey of Music Generation in the Context of Interaction [3.6522809408725223]
機械学習は、メロディーとポリフォニックの両方の曲の作曲と生成に成功している。
これらのモデルのほとんどは、ライブインタラクションによる人間と機械の共創には適していない。
論文 参考訳(メタデータ) (2024-02-23T12:41:44Z) - Generating music with sentiment using Transformer-GANs [0.0]
本研究では,人間の感情から得られるデータによって条件付けられた記号音楽の生成モデルを提案する。
我々は,効率の良い線形バージョンの注意と識別器を用いることで,上記の問題に対処しようと試みている。
論文 参考訳(メタデータ) (2022-12-21T15:59:35Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。