論文の概要: MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition
- arxiv url: http://arxiv.org/abs/2501.17011v1
- Date: Tue, 28 Jan 2025 15:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:01.460164
- Title: MIDI-GPT: A Controllable Generative Model for Computer-Assisted Multitrack Music Composition
- Title(参考訳): MIDI-GPT:コンピュータ支援マルチトラック音楽合成のための制御可能な生成モデル
- Authors: Philippe Pasquier, Jeff Ens, Nathan Fradet, Paul Triana, Davide Rizzotti, Jean-Baptiste Rolland, Maryam Safi,
- Abstract要約: MIDI-GPTはコンピュータ支援音楽合成のための生成システムである。
楽器の種類、音楽スタイル、音の密度、ポリフォニーレベル、音の持続時間などの属性を条件付けできる。
本研究では,MIDI-GPTがトレーニング対象の音楽素材の複製を一貫して回避し,トレーニングデータセットとスタイリスティックに類似した音楽を生成し,属性制御が生成した素材に様々な制約を課すことを実証する実験結果を示す。
- 参考スコア(独自算出の注目度): 4.152843247686306
- License:
- Abstract: We present and release MIDI-GPT, a generative system based on the Transformer architecture that is designed for computer-assisted music composition workflows. MIDI-GPT supports the infilling of musical material at the track and bar level, and can condition generation on attributes including: instrument type, musical style, note density, polyphony level, and note duration. In order to integrate these features, we employ an alternative representation for musical material, creating a time-ordered sequence of musical events for each track and concatenating several tracks into a single sequence, rather than using a single time-ordered sequence where the musical events corresponding to different tracks are interleaved. We also propose a variation of our representation allowing for expressiveness. We present experimental results that demonstrate that MIDI-GPT is able to consistently avoid duplicating the musical material it was trained on, generate music that is stylistically similar to the training dataset, and that attribute controls allow enforcing various constraints on the generated material. We also outline several real-world applications of MIDI-GPT, including collaborations with industry partners that explore the integration and evaluation of MIDI-GPT into commercial products, as well as several artistic works produced using it.
- Abstract(参考訳): 我々は,コンピュータ支援音楽合成ワークフロー用に設計されたトランスフォーマーアーキテクチャに基づく生成システムMIDI-GPTを提示・リリースする。
MIDI-GPTは、トラックレベルとバーレベルの音楽素材の充填をサポートし、楽器タイプ、音楽スタイル、ノート密度、ポリフォニーレベル、音符持続時間などの属性で条件を生成できる。
これらの特徴を統合するために、私たちは、異なるトラックに対応する音楽イベントがインターリーブされる単一の時間順序シーケンスを使用するのではなく、各トラックに対して時間順序の楽曲イベント列を作成し、複数のトラックを単一のシーケンスにまとめる。
また,表現性を考慮した表現のバリエーションを提案する。
そこで本研究では,MIDI-GPTがトレーニング対象の音楽素材の複製を一貫して回避し,トレーニングデータセットとスタイリスティックに類似した音楽を生成し,属性制御が生成した素材に様々な制約を課すことを実証する実験結果を示す。
我々は、MIDI-GPTの商業製品への統合と評価を探求する業界パートナーとのコラボレーションや、MIDI-GPTを用いた芸術作品など、MIDI-GPTの現実的な応用についても概説する。
関連論文リスト
- MidiTok Visualizer: a tool for visualization and analysis of tokenized MIDI symbolic music [0.0]
MidiTok Visualizerは、MidiTok Pythonパッケージから様々なMIDIトークン化メソッドの探索と視覚化を容易にするために設計されたWebアプリケーションである。
論文 参考訳(メタデータ) (2024-10-27T17:00:55Z) - Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを使わずに開発することができる。
まず、MIDI入力に基づいて結合的な合成を行い、音声のみのデータセットに基づいて訓練された拡散に基づく深層生成モデルを用いて、結果のオーディオをリアルなトラックに洗練する。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - MusIAC: An extensible generative framework for Music Infilling
Applications with multi-level Control [11.811562596386253]
埋め込み(いんふ)とは、周囲のマルチトラック音楽に与えられた音楽セクションを生成する作業のこと。
提案するフレームワークは、バーごとのトーン張力やポリフォニーレベルの追跡といった制御トークンの追加として、新しい制御トークンである。
インタラクティブな生成を可能にするために,Google Colabノートブックにモデルを提示する。
論文 参考訳(メタデータ) (2022-02-11T10:02:21Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - MMM : Exploring Conditional Multi-Track Music Generation with the
Transformer [9.569049935824227]
マルチトラック音楽を生成することができるトランスフォーマーアーキテクチャに基づく生成システムを提案する。
我々は、各トラックといくつかのトラックについて、時間順に順序付けされた音楽イベントのシーケンスを1つのシーケンスに生成する。
これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。
論文 参考訳(メタデータ) (2020-08-13T02:36:34Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。