論文の概要: Efficient Long-Sequence Diffusion Modeling for Symbolic Music Generation
- arxiv url: http://arxiv.org/abs/2603.00576v1
- Date: Sat, 28 Feb 2026 09:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.272195
- Title: Efficient Long-Sequence Diffusion Modeling for Symbolic Music Generation
- Title(参考訳): シンボリック音楽生成のための効率的な長周期拡散モデル
- Authors: Jinhan Xu, Xing Tang, Houpeng Yang, Haoran Zhang, Shenghua Yuan, Jiatao Chen, Tianming Xi, Jing Wang, Jiaojiao Yu, Guangli Xiang,
- Abstract要約: シンボリック・ミュージック・ジェネレーションは、階層的時間構造、長距離依存、きめ細かい局所的詳細を含む長いシーケンスを含む、困難なタスクである。
本研究では,効率的なグローバル構造構築と光局所改善を両立させるため,SMDIMという拡散戦略を提案する。
実験により、モデルが生成品質と計算効率の両方において、他の最先端アプローチよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 5.290828305368797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Symbolic music generation is a challenging task in multimedia generation, involving long sequences with hierarchical temporal structures, long-range dependencies, and fine-grained local details. Though recent diffusion-based models produce high quality generations, they tend to suffer from high training and inference costs with long symbolic sequences due to iterative denoising and sequence-length-related costs. To deal with such problem, we put forth a diffusing strategy named SMDIM to combine efficient global structure construction and light local refinement. SMDIM uses structured state space models to capture long range musical context at near linear cost, and selectively refines local musical details via a hybrid refinement scheme. Experiments performed on a wide range of symbolic music datasets which encompass various Western classical music, popular music and traditional folk music show that the SMDIM model outperforms the other state-of-the-art approaches on both the generation quality and the computational efficiency, and it has robust generalization to underexplored musical styles. These results show that SMDIM offers a principled solution for long-sequence symbolic music generation, including associated attributes that accompany the sequences. We provide a project webpage with audio examples and supplementary materials at https://3328702107.github.io/smdim-music/.
- Abstract(参考訳): シンボリック・ミュージック・ジェネレーションは、階層的時間構造を持つ長いシーケンス、長距離依存、きめ細かい局所的詳細を含むマルチメディア・ジェネレーションにおいて難しい課題である。
最近の拡散モデルでは、高品質な世代を生み出すが、反復的なデノゲーションとシーケンス長関連コストのために、長い記号列を持つ高いトレーニングと推論コストに悩まされる傾向にある。
このような問題に対処するため,我々は,効率的なグローバル構造構築と軽量局所改善を両立させるため,SMDIMという拡散戦略を提唱した。
SMDIMは構造化状態空間モデルを用いて、長い範囲の音楽コンテキストをほぼ線形コストで捉え、ハイブリッド・リファインメント・スキームによって局所音楽の詳細を選択的に洗練する。
様々な西洋のクラシック音楽、ポピュラー音楽、伝統的なフォーク音楽を含む幅広い記号的音楽データセットを用いて行われた実験では、SMDIMモデルは、生成品質と計算効率の両方において、他の最先端のアプローチよりも優れており、過小評価された音楽スタイルに対する堅牢な一般化がある。
これらの結果から,SMDIMは時系列に付随する属性を含む長周期のシンボリック音楽生成の原理的ソリューションを提供することがわかった。
プロジェクトのWebページにオーディオサンプルと補足資料をhttps://3328702107.github.io/smdim-music/で提供します。
関連論文リスト
- Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。
我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文 参考訳(メタデータ) (2026-01-07T14:40:48Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation [4.101665207455494]
PerceiverS(セグメンテーション・アンド・スケール)は、長い構造化された表現力のある音楽を生成するために設計された新しいアーキテクチャである。
本手法は,長期的構造的依存関係と短期的表現的詳細を同時に学習することにより,記号的音楽生成を促進する。
提案したモデルは,Maestroデータセットを用いて評価され,コヒーレントで多様な音楽を生成する方法の改善が示されている。
論文 参考訳(メタデータ) (2024-11-13T03:14:10Z) - SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation [7.428668206443388]
そこで本研究では,シミュレーション手法を用いて現実的なトレーニングセットを作成する,SynthSODと呼ばれる新しいマルチトラックデータセットを提案する。
合成データセットw.r.tをトレーニングしたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実演する。
論文 参考訳(メタデータ) (2024-09-17T08:58:33Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Hierarchical Recurrent Neural Networks for Conditional Melody Generation
with Long-term Structure [0.0]
階層型リカレントニューラルネットワークを用いた条件付きメロディ生成モデルを提案する。
このモデルは、与えられたコード伴奏に基づいて長期構造を持つメロディーを生成する。
聴取試験の結果,CM-HRNNは長期的構造と総合評価においてアテンションRNNよりも優れていた。
論文 参考訳(メタデータ) (2021-02-19T08:22:26Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。