論文の概要: MIDI-LLM: Adapting Large Language Models for Text-to-MIDI Music Generation
- arxiv url: http://arxiv.org/abs/2511.03942v1
- Date: Thu, 06 Nov 2025 00:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.251348
- Title: MIDI-LLM: Adapting Large Language Models for Text-to-MIDI Music Generation
- Title(参考訳): MIDI-LLM:テキストからMIDI音楽生成のための大規模言語モデルへの適応
- Authors: Shih-Lun Wu, Yoon Kim, Cheng-Zhi Anna Huang,
- Abstract要約: 自由形式のテキストプロンプトからマルチトラックMIDI音楽を生成するLLMであるMIDI-LLMを提案する。
提案手法では,テキストLLMの語彙をMIDIトークンに含めるように拡張し,テキスト・トゥ・MIDI能力を実現するために2段階のトレーニングレシピを使用する。
- 参考スコア(独自算出の注目度): 38.07213913075033
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present MIDI-LLM, an LLM for generating multitrack MIDI music from free-form text prompts. Our approach expands a text LLM's vocabulary to include MIDI tokens, and uses a two-stage training recipe to endow text-to-MIDI abilities. By preserving the original LLM's parameter structure, we can directly leverage the vLLM library for accelerated inference. Experiments show that MIDI-LLM achieves higher quality, better text control, and faster inference compared to the recent Text2midi model. Live demo at https://midi-llm-demo.vercel.app.
- Abstract(参考訳): 自由形式のテキストプロンプトからマルチトラックMIDI音楽を生成するLLMであるMIDI-LLMを提案する。
提案手法では,テキストLLMの語彙をMIDIトークンに含めるように拡張し,テキスト・トゥ・MIDI能力を実現するために2段階のトレーニングレシピを使用する。
元の LLM のパラメータ構造を保存することで,vLLM ライブラリを直接利用して推論を高速化することができる。
実験の結果,MIDI-LLMは最近のText2midiモデルと比較して高い品質,優れたテキスト制御,高速な推論を実現することがわかった。
Live demo at https://midi-llm-demo.vercel.app.com
関連論文リスト
- Text2midi: Generating Symbolic Music from Captions [7.133321587053803]
本稿では,テキスト記述からMIDIファイルを生成するエンド・ツー・エンド・エンド・モデルであるtext2midiを紹介する。
プレトレーニングされたLLMエンコーダを使用してキャプションを処理し、自動回帰変換器デコーダを条件にMIDIシーケンスを生成する。
我々は,MIDIファイルを高品質に生成するための総合的な実験評価を行い,自動化された研究と人為的な研究の両方を取り入れた。
論文 参考訳(メタデータ) (2024-12-21T08:09:12Z) - Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを必要としない。
MIDIの入力に基づいて合成音声トラックを生成し、MIDIアノテーションなしでデータセットに基づいて訓練された拡散に基づく深層生成モデルで洗練する。
デジタルオーディオワークステーションの伝統的な機能と同様、音声サンプルの選択やMIDI設計を通じて音色や表現を詳細に制御することができる。
論文 参考訳(メタデータ) (2024-10-22T08:01:40Z) - REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
本稿では,旋律に沿った歌詞を編集・生成する最初のフレームワークであるREFFLYを紹介する。
合成したメロディ対応歌詞データセットを用いて歌詞修正モジュールを訓練する。
そこで本研究では,意味的意味と音楽的一貫性の両立を目的とした学習自由度を提案する。
論文 参考訳(メタデータ) (2024-08-30T23:22:34Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Composer's Assistant: An Interactive Transformer for Multi-Track MIDI
Infilling [0.0]
Composer's Assistantは、REAPERデジタルオーディオワークステーションにおける対話型ヒューマンコンピュータ合成システムである。
マルチトラックMIDIインフィルのタスクを達成するために,T5ライクなモデルをトレーニングする。
ComposerのAssistantは、REAPERのモデルとのインタラクションを可能にするスクリプトとともに、このモデルで構成されている。
論文 参考訳(メタデータ) (2023-01-29T19:45:10Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。