論文の概要: ProGress: Structured Music Generation via Graph Diffusion and Hierarchical Music Analysis
- arxiv url: http://arxiv.org/abs/2510.10249v1
- Date: Sat, 11 Oct 2025 15:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.858751
- Title: ProGress: Structured Music Generation via Graph Diffusion and Hierarchical Music Analysis
- Title(参考訳): ProGress: グラフ拡散と階層音楽解析による構造化音楽生成
- Authors: Stephen Ni-Hahn, Chao Péter Yang, Mingchen Ma, Cynthia Rudin, Simon Mak, Yue Jiang,
- Abstract要約: 本稿では,Schenkerian Analysis (SchA) を拡散モデリングフレームワークに組み込んだ新しい生成音楽フレームワークを提案する。
人間実験の結果は、既存の最先端手法よりも優れた性能を示唆している。
- 参考スコア(独自算出の注目度): 30.70586380345095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial Intelligence (AI) for music generation is undergoing rapid developments, with recent symbolic models leveraging sophisticated deep learning and diffusion model algorithms. One drawback with existing models is that they lack structural cohesion, particularly on harmonic-melodic structure. Furthermore, such existing models are largely "black-box" in nature and are not musically interpretable. This paper addresses these limitations via a novel generative music framework that incorporates concepts of Schenkerian analysis (SchA) in concert with a diffusion modeling framework. This framework, which we call ProGress (Prolongation-enhanced DiGress), adapts state-of-the-art deep models for discrete diffusion (in particular, the DiGress model of Vignac et al., 2023) for interpretable and structured music generation. Concretely, our contributions include 1) novel adaptations of the DiGress model for music generation, 2) a novel SchA-inspired phrase fusion methodology, and 3) a framework allowing users to control various aspects of the generation process to create coherent musical compositions. Results from human experiments suggest superior performance to existing state-of-the-art methods.
- Abstract(参考訳): 音楽生成のための人工知能(AI)は、高度な深層学習と拡散モデルアルゴリズムを活用した最近のシンボリックモデルにより、急速に発展している。
既存のモデルの欠点の1つは、構造的凝集、特に調和メロディック構造に欠けていることである。
さらに、そのような既存のモデルは本質的に「ブラックボックス」であり、音楽的に解釈できない。
本稿では、Schenkerian Analysis(SchA)の概念を拡散モデリングフレームワークと組み合わせた、新しい生成的音楽フレームワークを通じて、これらの制限に対処する。
このフレームワークはProGress(Prolongation-enhanced DiGress)と呼ばれ、離散拡散のための最先端のディープモデル(特にVignac et al , 2023 の DiGress モデル)を解釈可能で構造化された音楽生成に適用する。
具体的には、私たちの貢献には
1)音楽生成のためのDieGressモデルの新たな適応
2)新しいSchAにインスパイアされたフレーズ融合手法,及び
3) ユーザが生成過程の様々な側面を制御してコヒーレントな楽曲を作成できるフレームワーク。
人間実験の結果は、既存の最先端手法よりも優れた性能を示唆している。
関連論文リスト
- Etude: Piano Cover Generation with a Three-Stage Approach -- Extract, strucTUralize, and DEcode [0.0]
ピアノカバー生成は、ポップソングをピアノアレンジメントに変換することを目的としている。
既存のモデルは、オリジナルの曲と構造的な整合性を維持するのに失敗することが多い。
構造的類似性を定義するため、リズム情報は不可欠である。
本モデルでは, 適切な楽曲構造を保ち, 流音や音楽のダイナミクスを向上し, 高い制御可能な生成を支援するカバーを製作する。
論文 参考訳(メタデータ) (2025-09-20T04:06:43Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - StemGen: A music generation model that listens [9.489938613869864]
音楽の文脈に耳を傾けたり反応したりできる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。
論文 参考訳(メタデータ) (2023-12-14T08:09:20Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Learning Interpretable Representation for Controllable Polyphonic Music
Generation [5.01266258109807]
我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。
このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
論文 参考訳(メタデータ) (2020-08-17T07:11:16Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。