論文の概要: Composer's Assistant: Interactive Transformers for Multi-Track MIDI
Infilling
- arxiv url: http://arxiv.org/abs/2301.12525v1
- Date: Sun, 29 Jan 2023 19:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:40:37.655800
- Title: Composer's Assistant: Interactive Transformers for Multi-Track MIDI
Infilling
- Title(参考訳): Composerのアシスタント:マルチトラックMIDIインフィルのためのインタラクティブトランス
- Authors: Martin E. Malandro
- Abstract要約: 任意の情報(トラック,測度)がMIDIファイルから連続した測度スライスから削除された場合に,多トラックMIDIを埋め込むタスクについて検討する。
この課題を解決するために,2つのT5様モデルをトレーニングする。1つは基本的MIDI様イベント語彙,もう1つは結合した単語様バージョンである。
9つの多トラックMIDI入力タスクからなるLakh MIDIデータセットから作成した新しいテストセットを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the task of multi-track MIDI infilling when arbitrary (track,
measure) pairs of information have been deleted from a contiguous slice of
measures from a MIDI file. We train two T5-like models to solve this task, one
using a basic MIDI-like event vocabulary and one using a joined word-like
version of this vocabulary. We introduce a new test set, created from the Lakh
MIDI dataset, consisting of 9 multi-track MIDI infilling tasks. We evaluate our
models on these tasks and find that one model works better on some tasks while
the other works better on others. Our results have implications for the
training of neural networks in other small-vocabulary domains, such as byte
sequence modeling and protein sequence modeling. We release our source code,
and we demonstrate that our models are capable of enabling real-time
human-computer interactive composition in the REAPER digital audio workstation.
- Abstract(参考訳): 任意の情報(トラック,測度)がMIDIファイルから連続した測度スライスから削除された場合に,多トラックMIDIを埋め込むタスクについて検討する。
この課題を解決するために,2つのT5様モデルをトレーニングする。1つは基本的MIDI様イベント語彙,もう1つは結合した単語様バージョンである。
9つの多トラックMIDI入力タスクからなるLakh MIDIデータセットから作成した新しいテストセットを導入する。
私たちはこれらのタスクでモデルを評価し、あるタスクではモデルがうまく機能し、他のタスクではモデルが良く機能することを見つけます。
この結果は、バイト配列モデリングやタンパク質配列モデリングなど、他の小語彙領域におけるニューラルネットワークのトレーニングに影響を及ぼす。
我々はソースコードを公開し、REAPERデジタルオーディオワークステーションでリアルタイムのヒューマン・コンピュータ・インタラクティブな構成を可能にすることを実証した。
関連論文リスト
- MidiTok Visualizer: a tool for visualization and analysis of tokenized MIDI symbolic music [0.0]
MidiTok Visualizerは、MidiTok Pythonパッケージから様々なMIDIトークン化メソッドの探索と視覚化を容易にするために設計されたWebアプリケーションである。
論文 参考訳(メタデータ) (2024-10-27T17:00:55Z) - Composer's Assistant 2: Interactive Multi-Track MIDI Infilling with Fine-Grained User Control [0.0]
ComposerのAssistant 2は、REAPERデジタルオーディオワークステーションにおける人間とコンピュータの対話的な合成システムである。
新しいコントロールは、システムの出力を細かく制御する。
論文 参考訳(メタデータ) (2024-07-19T23:28:09Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - Notochord: a Flexible Probabilistic Model for Real-Time MIDI Performance [0.8192907805418583]
Notochord は構造化事象の列の深い確率モデルである。
ポリフォニックおよびマルチトラックMIDIを生成し、10ミリ秒未満のレイテンシで入力に応答する。
論文 参考訳(メタデータ) (2024-03-18T17:35:02Z) - DiffMoog: a Differentiable Modular Synthesizer for Sound Matching [48.33168531500444]
DiffMoogはモジュラーシンセサイザーで、一般に商用機器で見られるモジュールの集合を包含する。
差別化が可能であるため、ニューラルネットワークとの統合が可能になり、自動サウンドマッチングが可能になる。
我々はDiffMoogとエンドツーエンドのサウンドマッチングフレームワークを組み合わせたオープンソースのプラットフォームを紹介した。
論文 参考訳(メタデータ) (2024-01-23T08:59:21Z) - MusicAgent: An AI Agent for Music Understanding and Generation with
Large Language Models [54.55063772090821]
MusicAgentは、多数の音楽関連ツールと、ユーザの要求に対処するための自律ワークフローを統合している。
このシステムの第一の目的は、AI音楽ツールの複雑さからユーザーを解放し、クリエイティブな側面に集中できるようにすることである。
論文 参考訳(メタデータ) (2023-10-18T13:31:10Z) - Anticipatory Music Transformer [60.15347393822849]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - The Chamber Ensemble Generator: Limitless High-Quality MIR Data via
Generative Modeling [6.009299746966725]
本稿では,リッチアノテーションを付加した無制限のリアル・コーラル・ミュージックを制作できるシステムについて述べる。
我々は4つの異なる室内アンサンブルから大規模な合唱曲のデータセットを生成する。
MIRコミュニティにおける今後の作業のためのオープンソース基盤として,システムとデータセットの両方をリリースする。
論文 参考訳(メタデータ) (2022-09-28T22:55:15Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - The Piano Inpainting Application [0.0]
生成アルゴリズムは、提供された制御の制限、推論の禁止、ミュージシャンの生成への統合の欠如のために、依然としてアーティストによって広く使われていない。
本稿では,ピアノ演奏のインペインティングに着目した生成モデルであるピアノ・インペインティング・アプリケーション(PIA)について述べる。
論文 参考訳(メタデータ) (2021-07-13T09:33:11Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。