論文の概要: From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation
- arxiv url: http://arxiv.org/abs/2304.08953v1
- Date: Tue, 18 Apr 2023 12:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:50:38.672422
- Title: From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation
- Title(参考訳): 単語から音楽へ:シンボリック音楽生成におけるサブワードトークン化手法の研究
- Authors: Adarsh Kumar and Pedro Sarmento
- Abstract要約: サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
- 参考スコア(独自算出の注目度): 1.9188864062289432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword tokenization has been widely successful in text-based natural
language processing (NLP) tasks with Transformer-based models. As Transformer
models become increasingly popular in symbolic music-related studies, it is
imperative to investigate the efficacy of subword tokenization in the symbolic
music domain. In this paper, we explore subword tokenization techniques, such
as byte-pair encoding (BPE), in symbolic music generation and its impact on the
overall structure of generated songs. Our experiments are based on three types
of MIDI datasets: single track-melody only, multi-track with a single
instrument, and multi-track and multi-instrument. We apply subword tokenization
on post-musical tokenization schemes and find that it enables the generation of
longer songs at the same time and improves the overall structure of the
generated music in terms of objective metrics like structure indicator (SI),
Pitch Class Entropy, etc. We also compare two subword tokenization methods, BPE
and Unigram, and observe that both methods lead to consistent improvements. Our
study suggests that subword tokenization is a promising technique for symbolic
music generation and may have broader implications for music composition,
particularly in cases involving complex data such as multi-track songs.
- Abstract(参考訳): サブワードのトークン化は、トランスフォーマーベースのモデルでテキストベースの自然言語処理(nlp)タスクで広く成功している。
シンボリック音楽研究においてトランスフォーマーモデルがますます普及するにつれて、シンボリック音楽領域におけるサブワードトークン化の有効性を検討することが重要である。
本稿では,シンボリック音楽生成におけるバイトペア符号化(bpe)などのサブワードトークン化手法と,その全体的な構造への影響について検討する。
実験は、シングルトラックメロディのみ、シングル楽器付きマルチトラック、マルチトラックとマルチストラクチャの3種類のMIDIデータセットに基づいている。
サブワードのトークン化をポスト・ミュージックのトークン化スキームに適用し,同時に長曲の生成を可能にし,構造指標 (si) やピッチクラスエントロピーなどの客観的指標を用いて,生成された楽曲全体の構造を改善する。
また,bpeとunigramという2つのサブワードトークン化手法を比較し,両手法が一貫した改善をもたらすことを確認した。
本研究は,サブワードのトークン化が記号的音楽生成に有望な手法であることを示唆し,特にマルチトラック曲などの複雑なデータを含む場合において,楽曲構成に広範な影響を及ぼす可能性があることを示唆する。
関連論文リスト
- MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Natural Language Processing Methods for Symbolic Music Generation and
Information Retrieval: a Survey [6.416887247454113]
シンボリック・ミュージック・ジェネレーションと情報検索研究に応用されたNLP手法について検討する。
まず,自然言語の逐次表現から適応した記号音楽の表現について概説する。
我々はこれらのモデル、特に深層学習モデルについて、異なるプリズムを通して記述し、音楽に特化されたメカニズムを強調した。
論文 参考訳(メタデータ) (2024-02-27T12:48:01Z) - Structure-informed Positional Encoding for Music Generation [0.0]
トランスフォーマーを用いた音楽生成のための構造インフォームド位置符号化フレームワークを提案する。
我々は、次のステップ予測と伴奏生成という2つのシンボリックな音楽生成タスクでそれらをテストした。
提案手法は, 生成した部品の旋律的および構造的整合性を改善する。
論文 参考訳(メタデータ) (2024-02-20T13:41:35Z) - Impact of time and note duration tokenizations on deep learning symbolic
music modeling [0.0]
共通トークン化手法を解析し、時間と音符の持続時間表現を実験する。
明示的な情報がタスクによってより良い結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:56:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Byte Pair Encoding for Symbolic Music [0.0]
Byte Pair 埋め込みは語彙サイズを増大させながらシーケンス長を著しく減少させる。
我々は、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用し、その結果、より優れた結果と、生成および分類タスクにおける高速な推論の両方をもたらす。
ソースコードはGithubと同伴のウェブサイトで共有されている。
論文 参考訳(メタデータ) (2023-01-27T20:22:18Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。