論文の概要: SYMPLEX: Controllable Symbolic Music Generation using Simplex Diffusion with Vocabulary Priors
- arxiv url: http://arxiv.org/abs/2405.12666v1
- Date: Tue, 21 May 2024 10:27:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:39:22.809350
- Title: SYMPLEX: Controllable Symbolic Music Generation using Simplex Diffusion with Vocabulary Priors
- Title(参考訳): SYMPLEX:語彙前の単純な拡散を用いた制御可能なシンボリック音楽生成
- Authors: Nicolas Jonason, Luca Casini, Bob L. T. Sturm,
- Abstract要約: 簡単な拡散に基づくシンボリック音楽の高速かつ制御可能な生成のための新しいアプローチを提案する。
我々は,本モデルに語彙先行処理を施すことで,音楽生成プロセスに対してある程度のレベル制御が可能であることを示す。
- 参考スコア(独自算出の注目度): 3.686808512438363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new approach for fast and controllable generation of symbolic music based on the simplex diffusion, which is essentially a diffusion process operating on probabilities rather than the signal space. This objective has been applied in domains such as natural language processing but here we apply it to generating 4-bar multi-instrument music loops using an orderless representation. We show that our model can be steered with vocabulary priors, which affords a considerable level control over the music generation process, for instance, infilling in time and pitch and choice of instrumentation -- all without task-specific model adaptation or applying extrinsic control.
- Abstract(参考訳): 本稿では,信号空間ではなく確率に作用する拡散過程である単純な拡散に基づく,高速かつ制御可能な記号音楽生成のための新しい手法を提案する。
この目的は自然言語処理などの分野に応用されてきたが、ここでは秩序のない表現を用いた4バー多構成音楽ループの生成に適用する。
我々のモデルは,例えば時間やピッチ,楽器の選択といった音楽生成プロセスに対して,タスク固有のモデル適応や外在的制御を使わずに,かなりのレベルの制御が可能な,語彙の先行処理で操ることができることを示す。
関連論文リスト
- SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation [36.20472357852932]
我々は高品質でコヒーレントな伴奏を生成できる高速なSAG法を開発した。
音声信号から推定される条件を慎重に設計することにより、ターゲット伴奏のメルスペクトログラムを直接生成する非AR拡散ベースフレームワークを開発した。
本研究では,本手法がSingSongよりも優れたサンプルを生成でき,少なくとも30倍の速度で生成を加速できることを実証した。
論文 参考訳(メタデータ) (2024-05-13T12:14:54Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Fast Diffusion GAN Model for Symbolic Music Generation Controlled by
Emotions [1.6004393678882072]
本稿では,離散的なシンボリック音楽を生成するために,ジェネレーティブ・アドバイサル・ネットワークと組み合わせた拡散モデルを提案する。
まず、訓練された変分オートエンコーダを用いて、感情ラベル付きシンボリック音楽データセットの埋め込みを得た。
以上の結果から,所望の感情を持つシンボリック音楽を生成するための拡散モデルの有効性が示された。
論文 参考訳(メタデータ) (2023-10-21T15:35:43Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - FIGARO: Generating Symbolic Music with Fine-Grained Artistic Control [25.95359681751144]
本稿では,グローバルレベルできめ細かな制御可能生成が可能な自己教師型記述系列タスクを提案する。
そこで本研究では、ターゲットシーケンスに関する高レベル特徴を抽出し、対応する高レベル記述が与えられたシーケンスの条件分布を、シーケンス・ツー・シーケンス・モデリング・セットアップで学習する。
学習された高次特徴と、強い帰納バイアスとして機能するドメイン知識を組み合わせることで、制御可能なシンボリック音楽生成の最先端結果を実現し、トレーニング分布をはるかに越えて一般化する。
論文 参考訳(メタデータ) (2022-01-26T13:51:19Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。