論文の概要: MuseCoco: Generating Symbolic Music from Text
- arxiv url: http://arxiv.org/abs/2306.00110v1
- Date: Wed, 31 May 2023 18:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:59:05.513054
- Title: MuseCoco: Generating Symbolic Music from Text
- Title(参考訳): MuseCoco: テキストからシンボリック音楽を生成する
- Authors: Peiling Lu, Xin Xu, Chenfei Kang, Botao Yu, Chengyi Xing, Xu Tan,
Jiang Bian
- Abstract要約: MuseCocoは、音楽属性のテキスト記述からシンボリック音楽を生成する。
MuseCoCoは音楽コンポジション・コパイロット(Music Composition Copilot)の略で、ミュージシャンが与えられたテキストから音楽を直接生成できるようにする。
我々は120億のパラメータを持つロバストな大規模モデルを開発し、例外的な制御性と音楽性を示している。
- 参考スコア(独自算出の注目度): 29.14875340011866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating music from text descriptions is a user-friendly mode since the
text is a relatively easy interface for user engagement. While some approaches
utilize texts to control music audio generation, editing musical elements in
generated audio is challenging for users. In contrast, symbolic music offers
ease of editing, making it more accessible for users to manipulate specific
musical elements. In this paper, we propose MuseCoco, which generates symbolic
music from text descriptions with musical attributes as the bridge to break
down the task into text-to-attribute understanding and attribute-to-music
generation stages. MuseCoCo stands for Music Composition Copilot that empowers
musicians to generate music directly from given text descriptions, offering a
significant improvement in efficiency compared to creating music entirely from
scratch. The system has two main advantages: Firstly, it is data efficient. In
the attribute-to-music generation stage, the attributes can be directly
extracted from music sequences, making the model training self-supervised. In
the text-to-attribute understanding stage, the text is synthesized and refined
by ChatGPT based on the defined attribute templates. Secondly, the system can
achieve precise control with specific attributes in text descriptions and
offers multiple control options through attribute-conditioned or
text-conditioned approaches. MuseCoco outperforms baseline systems in terms of
musicality, controllability, and overall score by at least 1.27, 1.08, and 1.32
respectively. Besides, there is a notable enhancement of about 20% in objective
control accuracy. In addition, we have developed a robust large-scale model
with 1.2 billion parameters, showcasing exceptional controllability and
musicality.
- Abstract(参考訳): テキスト記述から音楽を生成することはユーザフレンドリーなモードである。
音楽オーディオ生成を制御するためにテキストを使用するアプローチもあるが、音楽要素の編集はユーザにとって困難である。
対照的に、シンボリック音楽は編集が容易で、ユーザーが特定の音楽要素を操作しやすい。
本稿では,音楽的属性を持つ文章記述から記号的音楽を生成するmusecocoを提案し,そのタスクをテキストから属性への理解と属性から音楽への生成段階に分解する。
MuseCoCoは音楽コンポジション・コパイロット(Music Composition Copilot)の略で、ミュージシャンが与えられたテキストから音楽を直接生成できるようにする。
このシステムには2つの大きな利点がある。
属性対音楽生成段階では、属性を直接音楽シーケンスから抽出することができ、モデルトレーニングを自己教師する。
テキスト・ツー・アトリビュート理解段階では、定義属性テンプレートに基づいて、ChatGPTによってテキストを合成・洗練する。
第二に、システムはテキスト記述の特定の属性で正確に制御でき、属性条件付きまたはテキスト条件付きアプローチによって複数の制御オプションを提供する。
MuseCocoは、音楽性、制御性、総合スコアでそれぞれ1.27、1.08、および1.32のベースラインシステムを上回っている。
さらに、客観的な制御精度が約20%向上している。
さらに12億のパラメータを持つ頑健な大規模モデルを開発し,例外的な制御性と音楽性を示した。
関連論文リスト
- Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning [24.6866990804501]
Instruct-MusicGenは、事前訓練されたMusicGenモデルを微調整して、効率的に編集命令に従う新しいアプローチである。
注目すべきは、Instruct-MusicGenはオリジナルのMusicGenモデルに8%新しいパラメータを導入し、5Kステップでのみ列車を走らせることだ。
論文 参考訳(メタデータ) (2024-05-28T17:27:20Z) - Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。
トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。
提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
論文 参考訳(メタデータ) (2023-10-26T05:24:38Z) - IteraTTA: An interface for exploring both text prompts and audio priors
in generating music with text-to-audio models [40.798454815430034]
IteraTTAは、ユーザーがテキストプロンプトを書き換えたり、生成されたオーディオから好ましいオーディオを選択できるように設計されている。
本実装と議論は,テキスト・トゥ・オーディオ・モデルに特に必要とされる設計上の考察を強調した。
論文 参考訳(メタデータ) (2023-07-24T11:00:01Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。