論文の概要: N-Gram Unsupervised Compoundation and Feature Injection for Better
Symbolic Music Understanding
- arxiv url: http://arxiv.org/abs/2312.08931v1
- Date: Wed, 13 Dec 2023 06:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:00:59.745368
- Title: N-Gram Unsupervised Compoundation and Feature Injection for Better
Symbolic Music Understanding
- Title(参考訳): シンボリック音楽理解のためのN-Gram無教師複合と特徴注入
- Authors: Jinhao Tian, Zuchao Li, Jiajia Li, Ping Wang
- Abstract要約: 音楽系列は隣接要素間の強い相関関係を示し、自然言語処理(NLP)によるN-gram技術の主要な候補となる。
本稿では,N-gramアプローチを利用したシンボリック・ミュージック・シーケンス理解のための新しい手法NG-Midiformerを提案する。
- 参考スコア(独自算出の注目度): 27.554853901252084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The first step to apply deep learning techniques for symbolic music
understanding is to transform musical pieces (mainly in MIDI format) into
sequences of predefined tokens like note pitch, note velocity, and chords.
Subsequently, the sequences are fed into a neural sequence model to accomplish
specific tasks. Music sequences exhibit strong correlations between adjacent
elements, making them prime candidates for N-gram techniques from Natural
Language Processing (NLP). Consider classical piano music: specific melodies
might recur throughout a piece, with subtle variations each time. In this
paper, we propose a novel method, NG-Midiformer, for understanding symbolic
music sequences that leverages the N-gram approach. Our method involves first
processing music pieces into word-like sequences with our proposed unsupervised
compoundation, followed by using our N-gram Transformer encoder, which can
effectively incorporate N-gram information to enhance the primary encoder part
for better understanding of music sequences. The pre-training process on
large-scale music datasets enables the model to thoroughly learn the N-gram
information contained within music sequences, and subsequently apply this
information for making inferences during the fine-tuning stage. Experiment on
various datasets demonstrate the effectiveness of our method and achieved
state-of-the-art performance on a series of music understanding downstream
tasks. The code and model weights will be released at
https://github.com/WouuYoauin/NG-Midiformer.
- Abstract(参考訳): シンボリック音楽理解にディープラーニング技術を適用する最初のステップは、音楽作品(主にmidi形式)を音符ピッチ、音速、和音などの予め定義されたトークン列に変換することである。
その後、シーケンスは特定のタスクを達成するために神経シーケンスモデルに供給される。
音楽系列は隣接要素間の強い相関関係を示し、自然言語処理(NLP)のN-gram技術の主要な候補となる。
クラシックピアノ音楽を考える:特定の旋律は曲全体にわたって繰り返され、毎回微妙な変化がある。
本稿では,N-gramアプローチを利用したシンボリック音楽系列の理解のためのNG-Midiformerを提案する。
提案手法では,提案する非教師なし複合化法を用いて楽曲をワード状系列に処理し,n-gram変換エンコーダを用いてn-gram情報を有効活用し,一次エンコーダ部を強化し,楽曲列の理解を深める。
大規模音楽データセットの事前学習プロセスにより、モデルが楽曲シーケンスに含まれるn-gram情報を徹底的に学習し、その後、微調整段階で推論を行うためにこの情報を適用することができる。
様々なデータセットを用いた実験により,下流の一連の音楽理解課題において,提案手法の有効性を実証し,最先端のパフォーマンスを達成した。
コードとモデルの重み付けはhttps://github.com/WouuYoauin/NG-Midiformer.comで公開される。
関連論文リスト
- End-to-end Piano Performance-MIDI to Score Conversion with Transformers [26.900974153235456]
実世界のピアノ演奏-MIDIファイルから直接詳細な楽譜を構築するエンド・ツー・エンドのディープ・ラーニング・アプローチを提案する。
シンボリック・ミュージック・データのための新しいトークン化表現を備えたモダン・トランスフォーマー・ベース・アーキテクチャを提案する。
また,本手法は,演奏データからトリルマークやステム方向などの表記法の詳細を直接予測する最初の方法でもある。
論文 参考訳(メタデータ) (2024-09-30T20:11:37Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Predicting Music Hierarchies with a Graph-Based Neural Decoder [6.617487928813374]
本稿では,楽譜を依存木に解析するデータ駆動型フレームワークについて述べる。
依存木は、音楽認知研究や音楽分析に使用される階層構造である。
このシステムの大きな利点の1つは、近代的なディープラーニングパイプラインに簡単に統合できることである。
論文 参考訳(メタデータ) (2023-06-29T13:59:18Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Machine Composition of Korean Music via Topological Data Analysis and
Artificial Neural Network [6.10183951877597]
楽曲を直接供給するのではなく、所定の音楽データに埋め込まれた作曲原理を機械に教える機械合成法を提案する。
ColorblackOverlap行列は、新しい楽曲をアルゴリズムで合成し、目的の人工ニューラルネットワークに向けてシード音楽を提供する。
論文 参考訳(メタデータ) (2022-03-29T12:11:31Z) - Differential Music: Automated Music Generation Using LSTM Networks with
Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。
絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。
実験結果は、音楽やトーンを聴くと約束を示す。
論文 参考訳(メタデータ) (2021-08-23T23:51:08Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Music Generation using Deep Learning [10.155748914174003]
提案したアプローチは、NottinghamデータセットからABCの表記を受け取り、ニューラルネットワークの入力として強化されるようにエンコードする。
主な目的は、任意の音符でニューラルネットワークを入力し、良い曲が生成されるまで、音符に基づいてネットワーク処理とシーケンスの増強を行うことである。
論文 参考訳(メタデータ) (2021-05-19T10:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。