論文の概要: SAGE-Music: Low-Latency Symbolic Music Generation via Attribute-Specialized Key-Value Head Sharing
- arxiv url: http://arxiv.org/abs/2510.00395v1
- Date: Wed, 01 Oct 2025 01:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.318452
- Title: SAGE-Music: Low-Latency Symbolic Music Generation via Attribute-Specialized Key-Value Head Sharing
- Title(参考訳): SAGE-Music: 属性特化キーバリュー共有による低レイテンシシンボリック音楽生成
- Authors: Jiaye Tan, Haonan Luo, Linfeng Song, Shuaiqi Chen, Yishan Lyu, Zian Zhong, Roujia Wang, Daniel Jiang, Haoran Zhang, Jiaming Bai, Haoran Cheng, Q. Vera Liao, Hao-Wen Dong,
- Abstract要約: 低レイテンシなシンボリック音楽生成は、リアルタイムおよび人間とAIの共創に不可欠である。
埋め込みプールのような従来のアクセラレーション技術は、音楽の質を著しく低下させる。
本稿では,Attribute-Specialized Key-Value Head Sharing (AS-KVHS)を提案する。
- 参考スコア(独自算出の注目度): 38.95508193655578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-latency symbolic music generation is essential for real-time improvisation and human-AI co-creation. Existing transformer-based models, however, face a trade-off between inference speed and musical quality. Traditional acceleration techniques such as embedding pooling significantly degrade quality, while recently proposed Byte Pair Encoding (BPE) methods - though effective on single-track piano data - suffer large performance drops in multi-track settings, as revealed by our analysis. We propose Attribute-Specialized Key-Value Head Sharing (AS-KVHS), adapted to music's structured symbolic representation, achieving about 30% inference speedup with only a negligible (about 0.4%) quality drop in objective evaluations and slight improvements in subjective listening tests. Our main contributions are (1) the first systematic study of BPE's generalizability in multi-track symbolic music, and (2) the introduction of AS-KVHS for low-latency symbolic music generation. Beyond these, we also release SAGE-Music, an open-source benchmark that matches or surpasses state-of-the-art models in generation quality.
- Abstract(参考訳): 低レイテンシなシンボリック音楽生成は、リアルタイム即興と人間とAIの共創に不可欠である。
しかし、既存のトランスフォーマーベースのモデルは、推論速度と音楽品質のトレードオフに直面している。
近年提案されたByte Pair Encoding(BPE)法は,シングルトラックのピアノデータに有効であるが,マルチトラック設定では大きな性能低下がみられた。
本稿では,音楽の構造的記号表現に適応した属性特化キーバリューヘッドシェアリング(AS-KVHS)を提案する。
主な貢献は,(1)多トラックシンボリック音楽におけるBPEの一般化可能性に関する最初の体系的研究,(2)低レイテンシシンボリック音楽生成のためのAS-KVHSの導入である。
このほか、私たちはオープンソースのベンチマークであるSAGE-Musicもリリースしています。
関連論文リスト
- Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation [5.793988399290161]
曲生成は音楽AIGCにおいて最も難しい問題とみなされている。
本稿では,人間編集可能なシンボリックスコアを用いた楽曲生成のための最初のモデルであるBar-level AI Composing Helper(BACH)を提案する。
BACHは、階層的な歌の構造に合わせて、トークン化戦略と象徴的な生成手順を導入する。
論文 参考訳(メタデータ) (2025-08-02T14:58:34Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Refining music sample identification with a self-supervised graph neural network [16.73613870989583]
本稿では,グラフニューラルネットワークを用いた軽量でスケーラブルな符号化アーキテクチャを提案する。
我々のモデルは、現在の最先端システムと比較してトレーニング可能なパラメータの9%しか使用せず、平均平均精度(mAP)は44.2%に達している。
さらに,実世界のアプリケーションにおけるクエリは時間的に短い場合が多いため,Sample100データセットに対する新たな詳細なアノテーションを用いて,短いクエリをベンチマークする。
論文 参考訳(メタデータ) (2025-06-17T16:19:21Z) - Analyzable Chain-of-Musical-Thought Prompting for High-Fidelity Music Generation [10.643965544581683]
音楽生成に適した新しいチェーン・オブ・シークレット(CoT)プロンプト技術であるMusiCoTを紹介する。
MusiCoTは、オーディオトークンを生成する前に、ARモデルに音楽構造全体を概説する権限を与える。
実験結果から,MusiCoTは主観的,主観的両指標で常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-25T12:51:21Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。