論文の概要: Byte Pair Encoding for Symbolic Music
- arxiv url: http://arxiv.org/abs/2301.11975v1
- Date: Fri, 27 Jan 2023 20:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 20:01:39.698217
- Title: Byte Pair Encoding for Symbolic Music
- Title(参考訳): シンボリック音楽のためのバイトペア符号化
- Authors: Nathan Fradet, Jean-Pierre Briot, Fabien Chhel, Amal El Fallah
Seghrouchni, Nicolas Gutowski
- Abstract要約: Byte Pair(BPE)がディープラーニングモデルの結果をどのように改善し、性能を向上するかを示す。
音楽生成と作曲の分類実験を行い,BPEが組込み学習に与える影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The symbolic music modality is nowadays mostly represented as discrete and
used with sequential models such as Transformers, for deep learning tasks.
Recent research put efforts on the tokenization, i.e. the conversion of data
into sequences of integers intelligible to such models. This can be achieved by
many ways as music can be composed of simultaneous tracks, of simultaneous
notes with several attributes. Until now, the proposed tokenizations are based
on small vocabularies describing the note attributes and time events, resulting
in fairly long token sequences. In this paper, we show how Byte Pair Encoding
(BPE) can improve the results of deep learning models while improving its
performances. We experiment on music generation and composer classification,
and study the impact of BPE on how models learn the embeddings, and show that
it can help to increase their isotropy, i.e., the uniformity of the variance of
their positions in the space.
- Abstract(参考訳): シンボリック音楽のモダリティは、現在では主に離散的に表現され、ディープラーニングタスクのためにトランスフォーマーなどのシーケンシャルモデルで使用される。
近年の研究では、トークン化、すなわちそのようなモデルに理解可能な整数列へのデータの変換に努力している。
これは、音楽が複数の属性を持つ同時音符の同時トラックで構成できるため、様々な方法で達成できる。
これまで提案されていたトークン化は、note属性とタイムイベントを記述した小さな語彙に基づいており、結果としてかなり長いトークンシーケンスになる。
本稿では,Byte Pair Encoding(BPE)がディープラーニングモデルの結果を向上し,性能を向上する方法について述べる。
音楽生成と作曲家の分類を実験し,BPEがモデルがどのように埋め込みを学習するかについて検討し,その等方性,すなわち空間における位置のばらつきの均一性を高めることに役立つことを示す。
関連論文リスト
- Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文 参考訳(メタデータ) (2023-11-15T00:57:51Z) - Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。
最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。
本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文 参考訳(メタデータ) (2023-10-17T23:34:39Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - SWAT: Spatial Structure Within and Among Tokens [53.525469741515884]
我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:38Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Compound Word Transformer: Learning to Compose Full-Song Music over
Dynamic Directed Hypergraphs [34.976342712112476]
我々は、ノートタイプやメトリックタイプなどのトークンの種類を考慮に入れた概念的に異なるアプローチを提示します。
得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。
実験では,最先端モデルと比較して,提案モデルが5~10倍高速に収束することを示す。
論文 参考訳(メタデータ) (2021-01-07T06:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。