論文の概要: Conditional Diffusion as Latent Constraints for Controllable Symbolic Music Generation
- arxiv url: http://arxiv.org/abs/2511.07156v1
- Date: Mon, 10 Nov 2025 14:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.305505
- Title: Conditional Diffusion as Latent Constraints for Controllable Symbolic Music Generation
- Title(参考訳): 制御可能なシンボリック音楽生成のための潜在制約としての条件拡散
- Authors: Matteo Pettenó, Alessandro Ilic Mezza, Alberto Bernardini,
- Abstract要約: シンボリック音楽生成モデルに対するプラグアンドプレイ遅延制約としての拡散過程の解法について検討する。
拡散駆動制約は従来の属性正規化や他の潜在制約アーキテクチャよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 47.38557855930304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in latent diffusion models have demonstrated state-of-the-art performance in high-dimensional time-series data synthesis while providing flexible control through conditioning and guidance. However, existing methodologies primarily rely on musical context or natural language as the main modality of interacting with the generative process, which may not be ideal for expert users who seek precise fader-like control over specific musical attributes. In this work, we explore the application of denoising diffusion processes as plug-and-play latent constraints for unconditional symbolic music generation models. We focus on a framework that leverages a library of small conditional diffusion models operating as implicit probabilistic priors on the latents of a frozen unconditional backbone. While previous studies have explored domain-specific use cases, this work, to the best of our knowledge, is the first to demonstrate the versatility of such an approach across a diverse array of musical attributes, such as note density, pitch range, contour, and rhythm complexity. Our experiments show that diffusion-driven constraints outperform traditional attribute regularization and other latent constraints architectures, achieving significantly stronger correlations between target and generated attributes while maintaining high perceptual quality and diversity.
- Abstract(参考訳): 遅延拡散モデルの最近の進歩は、条件付けとガイダンスによる柔軟な制御を提供しながら、高次元時系列データ合成における最先端の性能を示している。
しかし、既存の方法論は、主に、生成過程と相互作用する主なモダリティとして、音楽の文脈や自然言語に依存しており、特定の音楽属性を正確にファダーライクに制御する専門家には理想的ではないかもしれない。
本研究では,無条件のシンボリック音楽生成モデルに対するプラグアンドプレイ遅延制約として拡散過程をデノナイズする手法について検討する。
我々は,凍結した非条件バックボーンの潜伏先を暗黙の確率的先行として動作させる,小さな条件拡散モデルのライブラリを活用するフレームワークに焦点をあてる。
これまでの研究では、ドメイン固有のユースケースについて検討されてきたが、この研究は、私たちの知る限り、ノート密度、ピッチ範囲、輪郭、リズム複雑性など、様々な音楽的属性にまたがるアプローチの汎用性を初めて示すものである。
実験の結果,拡散駆動制約は従来の属性規則化や他の潜在制約アーキテクチャよりも優れており,高い知覚品質と多様性を維持しつつ,目標属性と生成属性の相関関係を著しく強めていることがわかった。
関連論文リスト
- Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Constrained Discrete Diffusion [61.81569616239755]
本稿では,拡散過程における微分可能制約最適化の新たな統合であるCDD(Constrained Discrete Diffusion)を紹介する。
CDDは直接、離散拡散サンプリングプロセスに制約を課し、トレーニング不要で効果的なアプローチをもたらす。
論文 参考訳(メタデータ) (2025-03-12T19:48:12Z) - Understanding the Quality-Diversity Trade-off in Diffusion Language Models [0.0]
拡散モデルは、視覚やオーディオなど、さまざまな領域にわたる連続的なデータをモデル化するために使用することができる。
最近の研究は、連続的な埋め込み空間で作業することで、テキスト生成への応用を探求している。
モデルは品質と多様性の間の本質的にのトレードオフを制御する自然な手段を欠いている。
論文 参考訳(メタデータ) (2025-03-11T17:18:01Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - An AI-powered Bayesian generative modeling approach for causal inference in observational studies [4.4876925770439415]
CausalBGMはAIを利用したベイズ生成モデリングアプローチである。
低次元潜在特徴集合の個別分布を学習することにより、個別処理効果(ITE)を推定する。
論文 参考訳(メタデータ) (2025-01-01T06:52:45Z) - Generalized Diffusion Model with Adjusted Offset Noise [1.7767466724342067]
本稿では,厳密な確率的枠組みの中で自然に付加的な雑音を取り入れた一般化拡散モデルを提案する。
我々は、ある調整でノイズを相殺する理論的等価性を確立し、証拠の低い境界に基づいて損失関数を導出する。
合成データセットの実験により、我々のモデルは輝度に関する課題に効果的に対処し、高次元シナリオにおいて従来の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-04T08:57:03Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Instructed Diffuser with Temporal Condition Guidance for Offline
Reinforcement Learning [71.24316734338501]
テンポラリ・コンポラブル・ディフューザ(TCD)を用いた実効時間条件拡散モデルを提案する。
TCDは、相互作用シーケンスから時間情報を抽出し、時間条件で生成を明示的にガイドする。
提案手法は,従来のSOTAベースラインと比較して最高の性能を達成または一致させる。
論文 参考訳(メタデータ) (2023-06-08T02:12:26Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。