論文の概要: Music SketchNet: Controllable Music Generation via Factorized
Representations of Pitch and Rhythm
- arxiv url: http://arxiv.org/abs/2008.01291v1
- Date: Tue, 4 Aug 2020 02:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:04:29.335030
- Title: Music SketchNet: Controllable Music Generation via Factorized
Representations of Pitch and Rhythm
- Title(参考訳): Music SketchNet: ピッチとリズムの因子表現による制御可能な音楽生成
- Authors: Ke Chen, Cheng-i Wang, Taylor Berg-Kirkpatrick, Shlomo Dubnov
- Abstract要約: Music SketchNetは、ユーザーが自動音楽生成を導く部分的な音楽アイデアを指定できるニューラルネットワークフレームワークである。
我々は、周囲の環境に配慮した不完全なモノフォニック音楽作品の欠落対策の作成に焦点をあてる。
生成プロセス中にユーザ指定スニペットをうまく組み込むことができることを示す。
- 参考スコア(独自算出の注目度): 42.694266687511906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Drawing an analogy with automatic image completion systems, we propose Music
SketchNet, a neural network framework that allows users to specify partial
musical ideas guiding automatic music generation. We focus on generating the
missing measures in incomplete monophonic musical pieces, conditioned on
surrounding context, and optionally guided by user-specified pitch and rhythm
snippets. First, we introduce SketchVAE, a novel variational autoencoder that
explicitly factorizes rhythm and pitch contour to form the basis of our
proposed model. Then we introduce two discriminative architectures,
SketchInpainter and SketchConnector, that in conjunction perform the guided
music completion, filling in representations for the missing measures
conditioned on surrounding context and user-specified snippets. We evaluate
SketchNet on a standard dataset of Irish folk music and compare with models
from recent works. When used for music completion, our approach outperforms the
state-of-the-art both in terms of objective metrics and subjective listening
tests. Finally, we demonstrate that our model can successfully incorporate
user-specified snippets during the generation process.
- Abstract(参考訳): 自動画像補完システムと類似して,ユーザが自動音楽生成を導く部分的な音楽アイデアを指定可能なニューラルネットワークフレームワークであるMusic SketchNetを提案する。
我々は,不完全なモノフォニック楽曲の欠落尺度の生成,周囲の状況の調整,ユーザの指定したピッチやリズムスニペットによる任意指導に焦点を当てた。
まず,SketchVAEという,リズムとピッチの輪郭を明示的に分解し,提案モデルの基礎となる変分自動エンコーダを紹介する。
次に,2つの識別アーキテクチャであるsketchinpainterとsketchconnectorについて紹介する。
アイルランドのフォークミュージックの標準データセット上でsketchnetを評価し、最近の作品のモデルと比較する。
音楽の完成に使用する場合、客観的な測定値と主観的聴力テストの両方で最先端の手法が優れている。
最後に,本モデルが生成プロセス中にユーザ指定スニペットをうまく組み込むことができることを示す。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Combinatorial music generation model with song structure graph analysis [18.71152526968065]
音符列や楽器などの情報をノードの特徴として用いたグラフを構築し,音符列間の相関がエッジの特徴として機能する。
グラフニューラルネットワークを用いてノード表現を訓練し,ノード表現をUnetの入力として使用して,ConLONのピアノロール画像遅延を生成する。
論文 参考訳(メタデータ) (2023-12-24T04:09:30Z) - Graph-based Polyphonic Multitrack Music Generation [9.701208207491879]
本稿では,音楽のための新しいグラフ表現と,音楽グラフの構造と内容を別々に生成する深部変分オートエンコーダを提案する。
音楽グラフの構造と内容を分離することにより、特定のタイミングでどの楽器が演奏されているかを指定することで条件生成が可能となる。
論文 参考訳(メタデータ) (2023-07-27T15:18:50Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Tr\"aumerAI: Dreaming Music with StyleGAN [2.578242050187029]
本稿では, ディープ・ミュージックの埋め込みをスタイルGANの埋め込みに直接マッピングするニューラル・ミュージック・ビジュアライザーを提案する。
アノテータは10秒の100曲のクリップを聴き、StyleGANが生成した例の中で音楽に合ったイメージを選択した。
生成した例は、音声と映像のマッピングが、あるレベルのセグメント内類似性とセグメント間異同を生じさせることを示している。
論文 参考訳(メタデータ) (2021-02-09T07:04:22Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。