論文の概要: Polyffusion: A Diffusion Model for Polyphonic Score Generation with
Internal and External Controls
- arxiv url: http://arxiv.org/abs/2307.10304v1
- Date: Wed, 19 Jul 2023 06:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 16:19:27.741149
- Title: Polyffusion: A Diffusion Model for Polyphonic Score Generation with
Internal and External Controls
- Title(参考訳): polyffusion:内部および外部制御を用いた多音素スコア生成のための拡散モデル
- Authors: Lejun Min, Junyan Jiang, Gus Xia, Jingwei Zhao
- Abstract要約: ポリフュージョン(Polyffusion)は、ポリフォニック音楽の楽譜を画像のようなピアノロール表現として生成する拡散モデルである。
内部および外部制御を用いることで、Polyffusionは幅広い音楽生成タスクを統一することを示す。
- 参考スコア(独自算出の注目度): 5.597394612661976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Polyffusion, a diffusion model that generates polyphonic music
scores by regarding music as image-like piano roll representations. The model
is capable of controllable music generation with two paradigms: internal
control and external control. Internal control refers to the process in which
users pre-define a part of the music and then let the model infill the rest,
similar to the task of masked music generation (or music inpainting). External
control conditions the model with external yet related information, such as
chord, texture, or other features, via the cross-attention mechanism. We show
that by using internal and external controls, Polyffusion unifies a wide range
of music creation tasks, including melody generation given accompaniment,
accompaniment generation given melody, arbitrary music segment inpainting, and
music arrangement given chords or textures. Experimental results show that our
model significantly outperforms existing Transformer and sampling-based
baselines, and using pre-trained disentangled representations as external
conditions yields more effective controls.
- Abstract(参考訳): 本研究では,多声楽曲を画像的ピアノロール表現として表現する拡散モデルであるpolyffusionを提案する。
このモデルは内部制御と外部制御という2つのパラダイムで制御可能な音楽生成を可能にする。
内部制御(internal control)とは、ユーザーが音楽の一部を事前に定義し、モデルに残りの部分を埋め込む過程をいう。
外部制御条件 コード、テクスチャ、その他の特徴など、外部に関係のない情報を持つモデルは、クロスアテンション機構を介してモデルを制御する。
内部および外部制御を用いることで、ポリフレーションは、伴奏のメロディ生成、伴奏のメロディ生成、任意の楽曲セグメントのインペイント、和音やテクスチャのアレンジメントなど、幅広い音楽生成タスクを統一することを示す。
実験結果から,既存のトランスフォーマーやサンプリングベースラインよりも優れた性能を示し,外部条件として事前学習したアンタングル表現を用いることで,より効果的に制御できることがわかった。
関連論文リスト
- DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - CoCoFormer: A controllable feature-rich polyphonic music generation
method [2.501600004190393]
本稿では,コードとリズムの入力をきめ細かいレベルで制御することで,モデルの出力を制御するコンディション合唱変換器(CoCoFormer)を提案する。
本稿では,CoCoFormerが現在のモデルよりも優れたレベルに達したことを実証する。
論文 参考訳(メタデータ) (2023-10-15T14:04:48Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - Anticipatory Music Transformer [77.29752896976116]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - MusIAC: An extensible generative framework for Music Infilling
Applications with multi-level Control [11.811562596386253]
埋め込み(いんふ)とは、周囲のマルチトラック音楽に与えられた音楽セクションを生成する作業のこと。
提案するフレームワークは、バーごとのトーン張力やポリフォニーレベルの追跡といった制御トークンの追加として、新しい制御トークンである。
インタラクティブな生成を可能にするために,Google Colabノートブックにモデルを提示する。
論文 参考訳(メタデータ) (2022-02-11T10:02:21Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。