論文の概要: Composer's Assistant: Interactive Transformers for Multi-Track MIDI
Infilling
- arxiv url: http://arxiv.org/abs/2301.12525v1
- Date: Sun, 29 Jan 2023 19:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:40:37.655800
- Title: Composer's Assistant: Interactive Transformers for Multi-Track MIDI
Infilling
- Title(参考訳): Composerのアシスタント:マルチトラックMIDIインフィルのためのインタラクティブトランス
- Authors: Martin E. Malandro
- Abstract要約: 任意の情報(トラック,測度)がMIDIファイルから連続した測度スライスから削除された場合に,多トラックMIDIを埋め込むタスクについて検討する。
この課題を解決するために,2つのT5様モデルをトレーニングする。1つは基本的MIDI様イベント語彙,もう1つは結合した単語様バージョンである。
9つの多トラックMIDI入力タスクからなるLakh MIDIデータセットから作成した新しいテストセットを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of multi-track MIDI infilling when arbitrary (track,
measure) pairs of information have been deleted from a contiguous slice of
measures from a MIDI file. We train two T5-like models to solve this task, one
using a basic MIDI-like event vocabulary and one using a joined word-like
version of this vocabulary. We introduce a new test set, created from the Lakh
MIDI dataset, consisting of 9 multi-track MIDI infilling tasks. We evaluate our
models on these tasks and find that one model works better on some tasks while
the other works better on others. Our results have implications for the
training of neural networks in other small-vocabulary domains, such as byte
sequence modeling and protein sequence modeling. We release our source code,
and we demonstrate that our models are capable of enabling real-time
human-computer interactive composition in the REAPER digital audio workstation.
- Abstract(参考訳): 任意の情報(トラック,測度)がMIDIファイルから連続した測度スライスから削除された場合に,多トラックMIDIを埋め込むタスクについて検討する。
この課題を解決するために,2つのT5様モデルをトレーニングする。1つは基本的MIDI様イベント語彙,もう1つは結合した単語様バージョンである。
9つの多トラックMIDI入力タスクからなるLakh MIDIデータセットから作成した新しいテストセットを導入する。
私たちはこれらのタスクでモデルを評価し、あるタスクではモデルがうまく機能し、他のタスクではモデルが良く機能することを見つけます。
この結果は、バイト配列モデリングやタンパク質配列モデリングなど、他の小語彙領域におけるニューラルネットワークのトレーニングに影響を及ぼす。
我々はソースコードを公開し、REAPERデジタルオーディオワークステーションでリアルタイムのヒューマン・コンピュータ・インタラクティブな構成を可能にすることを実証した。
関連論文リスト
- ByteComposer: a Human-like Melody Composition Method based on Language
Model Agent [11.792129708566598]
大規模言語モデル(LLM)は、マルチモーダル理解と生成タスクの進歩を奨励している。
我々は,人間の創造的パイプラインを4つのステップでエミュレートするエージェントフレームワークByteComposerを提案する。
我々は、GPT4およびオープンソースの大規模言語モデルに関する広範な実験を行い、フレームワークの有効性を実証した。
論文 参考訳(メタデータ) (2024-02-24T04:35:07Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - MusicAgent: An AI Agent for Music Understanding and Generation with
Large Language Models [54.55063772090821]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。
このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文 参考訳(メタデータ) (2023-10-18T13:31:10Z) - Anticipatory Music Transformer [77.29752896976116]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - The Chamber Ensemble Generator: Limitless High-Quality MIR Data via
Generative Modeling [6.009299746966725]
本稿では,リッチアノテーションを付加した無制限のリアル・コーラル・ミュージックを制作できるシステムについて述べる。
我々は4つの異なる室内アンサンブルから大規模な合唱曲のデータセットを生成する。
MIRコミュニティにおける今後の作業のためのオープンソース基盤として,システムとデータセットの両方をリリースする。
論文 参考訳(メタデータ) (2022-09-28T22:55:15Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - The Piano Inpainting Application [0.0]
生成アルゴリズムは、提供された制御の制限、推論の禁止、ミュージシャンの生成への統合の欠如のために、依然としてアーティストによって広く使われていない。
本稿では,ピアノ演奏のインペインティングに着目した生成モデルであるピアノ・インペインティング・アプリケーション(PIA)について述べる。
論文 参考訳(メタデータ) (2021-07-13T09:33:11Z) - A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation [0.0]
本研究の目的は,MIDIクリップが自動生成仮説に基づいて構成される可能性を示すモデルを得ることである。
実験結果は、CSMT(2020)のデータチャレンジにおける7ドルチームの中で、私たちのモデルが3位にランクされていることを示している。
論文 参考訳(メタデータ) (2020-10-15T13:59:58Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。