論文の概要: Text2midi: Generating Symbolic Music from Captions
- arxiv url: http://arxiv.org/abs/2412.16526v1
- Date: Sat, 21 Dec 2024 08:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:09.188974
- Title: Text2midi: Generating Symbolic Music from Captions
- Title(参考訳): Text2midi: キャプションからシンボリック音楽を生成する
- Authors: Keshav Bhandari, Abhinaba Roy, Kyra Wang, Geeta Puri, Simon Colton, Dorien Herremans,
- Abstract要約: 本稿では,テキスト記述からMIDIファイルを生成するエンド・ツー・エンド・エンド・モデルであるtext2midiを紹介する。
プレトレーニングされたLLMエンコーダを使用してキャプションを処理し、自動回帰変換器デコーダを条件にMIDIシーケンスを生成する。
我々は,MIDIファイルを高品質に生成するための総合的な実験評価を行い,自動化された研究と人為的な研究の両方を取り入れた。
- 参考スコア(独自算出の注目度): 7.133321587053803
- License:
- Abstract: This paper introduces text2midi, an end-to-end model to generate MIDI files from textual descriptions. Leveraging the growing popularity of multimodal generative approaches, text2midi capitalizes on the extensive availability of textual data and the success of large language models (LLMs). Our end-to-end system harnesses the power of LLMs to generate symbolic music in the form of MIDI files. Specifically, we utilize a pretrained LLM encoder to process captions, which then condition an autoregressive transformer decoder to produce MIDI sequences that accurately reflect the provided descriptions. This intuitive and user-friendly method significantly streamlines the music creation process by allowing users to generate music pieces using text prompts. We conduct comprehensive empirical evaluations, incorporating both automated and human studies, that show our model generates MIDI files of high quality that are indeed controllable by text captions that may include music theory terms such as chords, keys, and tempo. We release the code and music samples on our demo page (https://github.com/AMAAI-Lab/Text2midi) for users to interact with text2midi.
- Abstract(参考訳): 本稿では,テキスト記述からMIDIファイルを生成するエンド・ツー・エンド・エンド・モデルであるtext2midiを紹介する。
マルチモーダル・ジェネレーティブ・アプローチの人気が高まる中、text2midiはテキストデータの普及と大規模言語モデル(LLM)の成功に乗じている。
エンド・ツー・エンドのシステムでは、LLMのパワーを利用してMIDIファイル形式でシンボリック音楽を生成する。
具体的には、事前訓練されたLLMエンコーダを使用してキャプションを処理し、自動回帰変換器デコーダを条件として、提供された記述を正確に反映したMIDIシーケンスを生成する。
この直感的でユーザフレンドリな方法は、ユーザがテキストプロンプトを使って楽曲を生成できるようにすることで、音楽作成プロセスを大幅に合理化する。
我々は,コード,キー,テンポといった音楽理論用語を含むテキストキャプションによって制御可能な高品質MIDIファイルを,我々のモデルが生成することを示す自動研究と人的研究の両方を取り入れた総合的な経験的評価を行う。
デモページ(https://github.com/AMAAI-Lab/Text2midi)で、ユーザがtext2midiと対話できるようにコードと音楽サンプルをリリースします。
関連論文リスト
- MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - MidiCaps: A large-scale MIDI dataset with text captions [6.806050368211496]
本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。
近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
論文 参考訳(メタデータ) (2024-06-04T12:21:55Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - miditok: A Python package for MIDI file tokenization [0.0]
MidiTokは、シンボリック音楽のトークン化を可能にするオープンソースライブラリである。
最もポピュラーな音楽トークン化を、統一されたAPIの下で実現している。
論文 参考訳(メタデータ) (2023-10-26T07:37:44Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Foley Music: Learning to Generate Music from Videos [115.41099127291216]
Foley Musicは、楽器を演奏する人々に関するサイレントビデオクリップのために、可愛らしい音楽を合成できるシステムだ。
まず、ビデオから音楽生成に成功するための2つの重要な中間表現、すなわち、ビデオからのボディーキーポイントと、オーディオ録音からのMIDIイベントを識別する。
身体の動きに応じてMIDIイベントシーケンスを正確に予測できるグラフ$-$Transformerフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-21T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。