論文の概要: Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
- arxiv url: http://arxiv.org/abs/2508.20665v1
- Date: Thu, 28 Aug 2025 11:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.35813
- Title: Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
- Title(参考訳): アマデウス:シンボリック音楽のための双方向属性モデルを用いた自己回帰モデル
- Authors: Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song,
- Abstract要約: 本稿では,新しいシンボリック音楽生成フレームワークであるAmadeusを紹介する。
アマデウスは、ノート配列の自己回帰モデルと属性の双方向離散拡散モデルを採用している。
非条件およびテキスト条件付き生成タスクについて広範な実験を行う。
- 参考スコア(独自算出の注目度): 47.95375326361059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing state-of-the-art symbolic music generation models predominantly adopt autoregressive or hierarchical autoregressive architectures, modelling symbolic music as a sequence of attribute tokens with unidirectional temporal dependencies, under the assumption of a fixed, strict dependency structure among these attributes. However, we observe that using different attributes as the initial token in these models leads to comparable performance. This suggests that the attributes of a musical note are, in essence, a concurrent and unordered set, rather than a temporally dependent sequence. Based on this insight, we introduce Amadeus, a novel symbolic music generation framework. Amadeus adopts a two-level architecture: an autoregressive model for note sequences and a bidirectional discrete diffusion model for attributes. To enhance performance, we propose Music Latent Space Discriminability Enhancement Strategy(MLSDES), incorporating contrastive learning constraints that amplify discriminability of intermediate music representations. The Conditional Information Enhancement Module (CIEM) simultaneously strengthens note latent vector representation via attention mechanisms, enabling more precise note decoding. We conduct extensive experiments on unconditional and text-conditioned generation tasks. Amadeus significantly outperforms SOTA models across multiple metrics while achieving at least 4$\times$ speed-up. Furthermore, we demonstrate training-free, fine-grained note attribute control feasibility using our model. To explore the upper performance bound of the Amadeus architecture, we compile the largest open-source symbolic music dataset to date, AMD (Amadeus MIDI Dataset), supporting both pre-training and fine-tuning.
- Abstract(参考訳): 既存の最先端の象徴的音楽生成モデルは、主に自己回帰的または階層的自己回帰的アーキテクチャを採用し、これらの属性間の固定された厳密な依存関係構造を前提として、一方向の時間的依存関係を持つ属性トークンのシーケンスとしてシンボル音楽をモデル化する。
しかし、これらのモデルで初期トークンとして異なる属性を使用すると、同等のパフォーマンスが得られます。
これは、音符の属性が本質的には時間的依存的な順序ではなく、同時かつ順序のない集合であることを示唆している。
この知見に基づいて,新しいシンボリック音楽生成フレームワークであるAmadeusを紹介する。
アマデウスは2段階のアーキテクチャを採用しており、ノートシーケンスの自己回帰モデルと属性の双方向離散拡散モデルである。
性能向上のために,中間的な音楽表現の識別性を増幅する対照的な学習制約を取り入れたMLSDES(Music Latent Space Discriminability Enhancement Strategy)を提案する。
条件情報拡張モジュール(CIEM)は、注意機構を介してノート潜在ベクトル表現を同時に強化し、より正確なメモ復号を可能にする。
非条件およびテキスト条件付き生成タスクについて広範な実験を行う。
アマデウスは複数のメトリクスでSOTAモデルよりも優れ、少なくとも4$\times$スピードアップを達成した。
さらに,本モデルを用いた学習不要,微粒なノート属性制御の実現可能性を示す。
Amadeusアーキテクチャの上位性能境界を探索するため,これまでで最大のオープンソースシンボル音楽データセットであるAMD(Amadeus MIDI Dataset)をコンパイルし,事前学習と微調整の両方をサポートする。
関連論文リスト
- Semantic Item Graph Enhancement for Multimodal Recommendation [49.66272783945571]
マルチモーダルレコメンデーションシステムは、商品のマルチモーダル情報を活用することで、パフォーマンスの向上に注目が集まっている。
先行する手法は、しばしばモダリティ固有のアイテム・イテム意味グラフを生のモダリティの特徴から構築する。
これらのセマンティックグラフは、アイテム間の協調信号のモデリングが不十分ななど、セマンティックな欠陥に悩まされている。
論文 参考訳(メタデータ) (2025-08-08T09:20:50Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Enhancing Attributed Graph Networks with Alignment and Uniformity Constraints for Session-based Recommendation [18.318271141864297]
セッションベースの勧告(SBR)は、匿名セッションに基づいてユーザの次のアクションを予測する。
ほとんどのSBRモデルは、アイテム表現を学ぶために短いセッションでコンテキスト遷移に依存する。
本稿では,AttrGAUというモデルに依存しないフレームワークを提案し,既存の属性に依存しないモデルにアイテム属性のモデリングの優位性をもたらす。
論文 参考訳(メタデータ) (2024-10-14T08:49:11Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Music FaderNets: Controllable Music Generation Based On High-Level
Features via Low-Level Feature Modelling [5.88864611435337]
限られたデータ量で高レベルの特徴表現を学習できるフレームワークを提案する。
提案するフレームワークをMusic FaderNetsと呼び,低レベルの属性を継続的に操作できるという事実から着想を得た。
本モデルでは, 覚醒特性とそれに対応する低レベル属性の固有関係をうまく学習できることを実証する。
論文 参考訳(メタデータ) (2020-07-29T16:01:45Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。