論文の概要: Multi-Instrumentalist Net: Unsupervised Generation of Music from Body
Movements
- arxiv url: http://arxiv.org/abs/2012.03478v1
- Date: Mon, 7 Dec 2020 06:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 20:48:33.143227
- Title: Multi-Instrumentalist Net: Unsupervised Generation of Music from Body
Movements
- Title(参考訳): multi-instrumentalist net:unsupervised generation of music from body movement
- Authors: Kun Su, Xiulong Liu, Eli Shlizerman
- Abstract要約: 本研究では、楽器を演奏するミュージシャンの入力体の動きを取り入れ、教師なしの環境で音楽を生成する新しいシステムを提案する。
ログ・スペクトログラムから様々な楽器音楽の離散的な潜在表現を学習するパイプライン「Multi-instrumentalistNet」を構築した。
Midiは、パイプラインがビデオ内の楽器によって演奏される音楽の正確なコンテンツを生成するように、潜在空間をさらに調整できることを示しています。
- 参考スコア(独自算出の注目度): 20.627164135805852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel system that takes as an input body movements of a musician
playing a musical instrument and generates music in an unsupervised setting.
Learning to generate multi-instrumental music from videos without labeling the
instruments is a challenging problem. To achieve the transformation, we built a
pipeline named 'Multi-instrumentalistNet' (MI Net). At its base, the pipeline
learns a discrete latent representation of various instruments music from
log-spectrogram using a Vector Quantized Variational Autoencoder (VQ-VAE) with
multi-band residual blocks. The pipeline is then trained along with an
autoregressive prior conditioned on the musician's body keypoints movements
encoded by a recurrent neural network. Joint training of the prior with the
body movements encoder succeeds in the disentanglement of the music into latent
features indicating the musical components and the instrumental features. The
latent space results in distributions that are clustered into distinct
instruments from which new music can be generated. Furthermore, the VQ-VAE
architecture supports detailed music generation with additional conditioning.
We show that a Midi can further condition the latent space such that the
pipeline will generate the exact content of the music being played by the
instrument in the video. We evaluate MI Net on two datasets containing videos
of 13 instruments and obtain generated music of reasonable audio quality,
easily associated with the corresponding instrument, and consistent with the
music audio content.
- Abstract(参考訳): 本研究では、楽器を演奏するミュージシャンの入力体の動きを取り入れ、教師なしの環境で音楽を生成する新しいシステムを提案する。
楽器をラベル付けせずにビデオから多声楽曲を生成する学習は難しい課題である。
トランスフォーメーションを実現するために、"multi-instrumentalistnet"(minet)というパイプラインを構築しました。
パイプラインは、マルチバンド残差ブロックを持つベクトル量子変分オートエンコーダ(VQ-VAE)を用いて、ログ・スペクトログラムから様々な楽器の離散潜在表現を学習する。
その後、パイプラインは、リカレントニューラルネットワークによって符号化されたミュージシャンのボディキーポイントの動きに、自己回帰的な事前条件でトレーニングされる。
前者の身体運動エンコーダとの共同訓練は、音楽の構成要素と楽器の特徴を示す潜在的な特徴に音楽が絡み合うことに成功している。
潜在空間は、新しい音楽が生成される異なる楽器にクラスタリングされた分布をもたらす。
さらに、VQ-VAEアーキテクチャは、追加の条件付き詳細な音楽生成をサポートする。
また,midiは,映像中の楽器が演奏する楽曲の正確な内容をパイプラインが生成するように,潜在空間をさらに条件付けることができることを示す。
13台の楽器のビデオを含む2つのデータセット上でmi netを評価し、適切な音質の生成された音楽を得るとともに、対応する楽器と容易に関連付けられ、音楽オーディオコンテンツと整合する。
関連論文リスト
- Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Show Me the Instruments: Musical Instrument Retrieval from Mixture Audio [11.941510958668557]
これを「楽器検索」と呼ぶ。
本稿では,クエリーとして参照音楽の混合を用いて,所望の楽器を検索する手法を提案する。
提案モデルは,畳み込みニューラルネットワークに基づくシングルインスツルメンツとマルチインスツルメンツで構成されている。
論文 参考訳(メタデータ) (2022-11-15T07:32:39Z) - Musika! Fast Infinite Waveform Music Generation [0.0]
Musikaは、何百時間もの音楽を、単一の消費者向けGPUを使って訓練できる音楽生成システムだ。
まず、逆自己エンコーダを用いて分光器の大きさと位相のコンパクトな可逆表現を学習する。
潜在座標系は任意の長さの抜粋列を並列に生成することができ、一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
論文 参考訳(メタデータ) (2022-08-18T08:31:15Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - MusIAC: An extensible generative framework for Music Infilling
Applications with multi-level Control [11.811562596386253]
埋め込み(いんふ)とは、周囲のマルチトラック音楽に与えられた音楽セクションを生成する作業のこと。
提案するフレームワークは、バーごとのトーン張力やポリフォニーレベルの追跡といった制御トークンの追加として、新しい制御トークンである。
インタラクティブな生成を可能にするために,Google Colabノートブックにモデルを提示する。
論文 参考訳(メタデータ) (2022-02-11T10:02:21Z) - Towards Automatic Instrumentation by Learning to Separate Parts in
Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。
オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。
我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文 参考訳(メタデータ) (2021-07-13T08:34:44Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z) - Audeo: Audio Generation for a Silent Performance Video [17.705770346082023]
本稿では,ピアノを弾くミュージシャンの入力ビデオフレームとして,そのビデオのための音楽を生成する新しいシステムを提案する。
本研究の主な目的は、このような変換の妥当性を探求し、視覚事象と音の関連性を持つための手がかりや構成要素を特定することである。
論文 参考訳(メタデータ) (2020-06-23T00:58:59Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。