論文の概要: Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings
- arxiv url: http://arxiv.org/abs/2407.19900v1
- Date: Mon, 29 Jul 2024 11:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:06:25.697252
- Title: Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings
- Title(参考訳): 構造埋め込みを持つ大規模言語モデルによる実用的・再現可能なシンボリック音楽生成
- Authors: Seungyeon Rhyu, Kichang Yang, Sungjun Cho, Jaehyeon Kim, Kyogu Lee, Moontae Lee,
- Abstract要約: 音楽生成は、大きな言語モデルに難しい複雑さをもたらす。
1) トークン化は、通常、生のMIDIデータに欠けているバーやビートのようなドメイン固有のアノテーションを必要とします。
我々はMuseNetにインスパイアされたMIDIベースの音楽生成フレームワークを開発し、ドメイン固有のアノテーションに依存しない2つの構造的埋め込みを実証的に研究した。
- 参考スコア(独自算出の注目度): 28.685224087199053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music generation introduces challenging complexities to large language models. Symbolic structures of music often include vertical harmonization as well as horizontal counterpoint, urging various adaptations and enhancements for large-scale Transformers. However, existing works share three major drawbacks: 1) their tokenization requires domain-specific annotations, such as bars and beats, that are typically missing in raw MIDI data; 2) the pure impact of enhancing token embedding methods is hardly examined without domain-specific annotations; and 3) existing works to overcome the aforementioned drawbacks, such as MuseNet, lack reproducibility. To tackle such limitations, we develop a MIDI-based music generation framework inspired by MuseNet, empirically studying two structural embeddings that do not rely on domain-specific annotations. We provide various metrics and insights that can guide suitable encoding to deploy. We also verify that multiple embedding configurations can selectively boost certain musical aspects. By providing open-source implementations via HuggingFace, our findings shed light on leveraging large language models toward practical and reproducible music generation.
- Abstract(参考訳): 音楽生成は、大きな言語モデルに難しい複雑さをもたらす。
シンボリックな音楽構造には、垂直調和と水平対位法が含まれており、様々な適応と大規模トランスフォーマーの強化を奨励している。
しかし、現存する作品には3つの大きな欠点がある。
1)それらのトークン化には、通常、生のMIDIデータに欠けているバーやビートのようなドメイン固有のアノテーションが必要です。
2) ドメイン固有のアノテーションなしでは、トークンの埋め込み方法の拡張による純粋な影響は、ほとんど調べられません。
3) MuseNetのような前述の欠点を克服する既存の作業は再現性に欠ける。
このような制約に対処するため、我々はMuseNetにインスパイアされたMIDIベースの音楽生成フレームワークを開発し、ドメイン固有のアノテーションに依存しない2つの構造的埋め込みを実証的に研究した。
デプロイに適したエンコーディングをガイドできるさまざまなメトリクスと洞察を提供しています。
また、複数の埋め込み構成が特定の音楽的側面を選択的に強化できることを検証する。
HuggingFaceを通じてオープンソース実装を提供することで,大規模言語モデルを実用的で再現可能な音楽生成に活用することに光を当てた。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - PerTok: Expressive Encoding and Modeling of Symbolic Musical Ideas and Variations [0.3683202928838613]
Cadenzaは、シンボリック・ミュージック・アイデアの表現的バリエーションを予測するための、新しい多段階生成フレームワークである。
提案するフレームワークは,1)コンストラクタと2)パフォーマの2段階からなる。
我々のフレームワークはミュージシャンにインスピレーションを与える目的で設計、研究、実装されている。
論文 参考訳(メタデータ) (2024-10-02T22:11:31Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Structure-informed Positional Encoding for Music Generation [0.0]
トランスフォーマーを用いた音楽生成のための構造インフォームド位置符号化フレームワークを提案する。
我々は、次のステップ予測と伴奏生成という2つのシンボリックな音楽生成タスクでそれらをテストした。
提案手法は, 生成した部品の旋律的および構造的整合性を改善する。
論文 参考訳(メタデータ) (2024-02-20T13:41:35Z) - Multi-view MidiVAE: Fusing Track- and Bar-view Representations for Long
Multi-track Symbolic Music Generation [50.365392018302416]
長い多トラックのシンボリック・ミュージックを効果的にモデル化・生成するVAE手法の先駆者の一つであるMulti-view MidiVAEを提案する。
我々は,ハイブリッドな変分符号化・復号化戦略を用いて,楽器の特徴と調和,および楽曲のグローバルおよびローカルな情報に焦点をあてる。
論文 参考訳(メタデータ) (2024-01-15T08:41:01Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - The Music Annotation Pattern [1.2043574473965315]
我々は,様々なアノテーションシステムを均質化し,様々な種類の音楽オブジェクトを表現するために,オントロジーデザインパターン(ODP)である音楽パターンを紹介する。
我々のODPは、様々なソースから派生したアノテーションを記述するために、マルチモーダリティを前もって説明しており、大規模な音楽データセットの統合を可能にするのは、これが初めてである。
論文 参考訳(メタデータ) (2023-03-30T11:13:59Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Learning Interpretable Representation for Controllable Polyphonic Music
Generation [5.01266258109807]
我々は、ポリフォニック音楽の2つの解釈可能な潜在要素である和音とテクスチャを効果的に学習する新しいアーキテクチャを設計する。
このようなコード・テクスチャ・ディコンタングルメントは,広い範囲の応用につながる制御可能な生成経路を提供することを示す。
論文 参考訳(メタデータ) (2020-08-17T07:11:16Z) - SongNet: Rigid Formats Controlled Text Generation [51.428634666559724]
この問題に対処するために,SongNetというシンプルでエレガントなフレームワークを提案する。
フレームワークのバックボーンは、Transformerベースの自動回帰言語モデルである。
事前学習および微調整のフレームワークは、生成品質をさらに向上するために設計されている。
論文 参考訳(メタデータ) (2020-04-17T01:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。