論文の概要: Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders
- arxiv url: http://arxiv.org/abs/2001.05494v2
- Date: Thu, 20 Feb 2020 14:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:15:02.497340
- Title: Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders
- Title(参考訳): 敵対的オートエンコーダによる学習スタイルアウェアなシンボリック音楽表現
- Authors: Andrea Valenti, Antonio Carta, Davide Bacciu
- Abstract要約: 我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
- 参考スコア(独自算出の注目度): 9.923470453197657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenging open problem of learning an effective latent space
for symbolic music data in generative music modeling. We focus on leveraging
adversarial regularization as a flexible and natural mean to imbue variational
autoencoders with context information concerning music genre and style. Through
the paper, we show how Gaussian mixtures taking into account music metadata
information can be used as an effective prior for the autoencoder latent space,
introducing the first Music Adversarial Autoencoder (MusAE). The empirical
analysis on a large scale benchmark shows that our model has a higher
reconstruction accuracy than state-of-the-art models based on standard
variational autoencoders. It is also able to create realistic interpolations
between two musical sequences, smoothly changing the dynamics of the different
tracks. Experiments show that the model can organise its latent space
accordingly to low-level properties of the musical pieces, as well as to embed
into the latent variables the high-level genre information injected from the
prior distribution to increase its overall performance. This allows us to
perform changes to the generated pieces in a principled way.
- Abstract(参考訳): 生成的音楽モデリングにおける記号的音楽データに対する効果的な潜在空間の学習という課題に対処する。
本研究では,音楽ジャンルやスタイルに関する文脈情報を持つ変分オートエンコーダを,フレキシブルで自然な手段として活用することに注力する。
本稿では,音楽メタデータ情報を考慮したガウス混合を,自動エンコーダの潜在空間に有効な前処理として用いる方法を示し,第1回music adversarial autoencoder (musae) を導入する。
大規模ベンチマーク実験の結果,本モデルは標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を示した。
また、2つの音楽系列間の現実的な補間を作成でき、異なるトラックのダイナミクスをスムーズに変えることができる。
実験により,楽譜の低レベル特性に応じて潜時空間を整理し,先行分布から注入された高レベルジャンル情報を潜時変数に組み込んで全体の性能を高めることができることがわかった。
これにより、生成した部分の変更を原則的に実行できます。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Flat latent manifolds for music improvisation between human and machine [9.571383193449648]
相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。
学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。
そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
論文 参考訳(メタデータ) (2022-02-23T09:00:17Z) - Deep Music Information Dynamics [1.6143012623830792]
本稿では,2つの並列ストリーム – 低レート遅延表現ストリームと,音楽データ自体から派生した高レート情報ダイナミックス – を組み合わせた新しいフレームワークを提案する。
人間の認知の速度ゆがみ理論に動機付けられ,聴取者の心に存在する想像上の予測と音楽面自体の情報力学の関係を探索する枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-01T19:59:59Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Music FaderNets: Controllable Music Generation Based On High-Level
Features via Low-Level Feature Modelling [5.88864611435337]
限られたデータ量で高レベルの特徴表現を学習できるフレームワークを提案する。
提案するフレームワークをMusic FaderNetsと呼び,低レベルの属性を継続的に操作できるという事実から着想を得た。
本モデルでは, 覚醒特性とそれに対応する低レベル属性の固有関係をうまく学習できることを実証する。
論文 参考訳(メタデータ) (2020-07-29T16:01:45Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。