論文の概要: Musika! Fast Infinite Waveform Music Generation
- arxiv url: http://arxiv.org/abs/2208.08706v1
- Date: Thu, 18 Aug 2022 08:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 14:13:54.099045
- Title: Musika! Fast Infinite Waveform Music Generation
- Title(参考訳): Musika!
高速無限波形音楽生成
- Authors: Marco Pasini, Jan Schl\"uter
- Abstract要約: Musikaは、何百時間もの音楽を、単一の消費者向けGPUを使って訓練できる音楽生成システムだ。
まず、逆自己エンコーダを用いて分光器の大きさと位相のコンパクトな可逆表現を学習する。
潜在座標系は任意の長さの抜粋列を並列に生成することができ、一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fast and user-controllable music generation could enable novel ways of
composing or performing music. However, state-of-the-art music generation
systems require large amounts of data and computational resources for training,
and are slow at inference. This makes them impractical for real-time
interactive use. In this work, we introduce Musika, a music generation system
that can be trained on hundreds of hours of music using a single consumer GPU,
and that allows for much faster than real-time generation of music of arbitrary
length on a consumer CPU. We achieve this by first learning a compact
invertible representation of spectrogram magnitudes and phases with adversarial
autoencoders, then training a Generative Adversarial Network (GAN) on this
representation for a particular music domain. A latent coordinate system
enables generating arbitrarily long sequences of excerpts in parallel, while a
global context vector allows the music to remain stylistically coherent through
time. We perform quantitative evaluations to assess the quality of the
generated samples and showcase options for user control in piano and techno
music generation. We release the source code and pretrained autoencoder weights
at github.com/marcoppasini/musika, such that a GAN can be trained on a new
music domain with a single GPU in a matter of hours.
- Abstract(参考訳): 高速でユーザ制御可能な音楽生成は、作曲や演奏の新しい方法を可能にする。
しかし、最先端の音楽生成システムは、トレーニングのために大量のデータと計算資源を必要とし、推論が遅い。
これにより、リアルタイムのインタラクティブな使用には実用的でない。
本研究では,単一のコンシューマGPUを用いて,数百時間に及ぶ音楽のトレーニングが可能な音楽生成システムであるMusikaを紹介し,コンシューマCPU上で任意の長さの音楽をリアルタイムに生成するよりもはるかに高速であることを示す。
まず, 逆オートエンコーダを用いて, スペクトログラム等級と位相のコンパクトな可逆表現を学習し, その表現を特定の音楽領域に対して生成的逆ネットワーク (gan) で訓練する。
潜在座標系は任意の長さの抜粋列を並列に生成できる一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
生成したサンプルの品質を定量的に評価し,ピアノおよびテクノ音楽生成におけるユーザ制御の選択肢を示す。
我々は、github.com/marcoppasini/musikaでソースコードと事前訓練されたオートエンコーダウェイトを公開し、GANを1つのGPUで数時間で新しい音楽ドメインでトレーニングできるようにした。
関連論文リスト
- MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - MAGMA: Music Aligned Generative Motion Autodecoder [15.825872274297735]
VQ-VAE(Vector Quantized-Variational Autoencoder)を用いた2段階のダンス生成手法を提案する。
リブロサを用いたナイーブな音楽特徴抽出と、最先端の音声圧縮アルゴリズムによって生成されたディープオーディオ表現を比較することで、音楽表現の重要性を評価する。
提案手法は,音楽対モーション生成ベンチマークの最先端結果を実現し,より長い動き列をリアルタイムに生成することを可能にする。
論文 参考訳(メタデータ) (2023-09-03T15:21:47Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Multi-Instrumentalist Net: Unsupervised Generation of Music from Body
Movements [20.627164135805852]
本研究では、楽器を演奏するミュージシャンの入力体の動きを取り入れ、教師なしの環境で音楽を生成する新しいシステムを提案する。
ログ・スペクトログラムから様々な楽器音楽の離散的な潜在表現を学習するパイプライン「Multi-instrumentalistNet」を構築した。
Midiは、パイプラインがビデオ内の楽器によって演奏される音楽の正確なコンテンツを生成するように、潜在空間をさらに調整できることを示しています。
論文 参考訳(メタデータ) (2020-12-07T06:54:10Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Incorporating Music Knowledge in Continual Dataset Augmentation for
Music Generation [69.06413031969674]
Aug-Genは、リソース制約のあるドメインでトレーニングされた任意の音楽生成システムに対するデータセット拡張の方法である。
我々は、Aug-Gen をトランスフォーマーベースのコラール生成に J.S. Bach のスタイルで適用し、これによりより長いトレーニングが可能となり、より優れた生成出力が得られることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:06:15Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。