論文の概要: Byte Pair Encoding for Symbolic Music
- arxiv url: http://arxiv.org/abs/2301.11975v1
- Date: Fri, 27 Jan 2023 20:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 20:01:39.698217
- Title: Byte Pair Encoding for Symbolic Music
- Title(参考訳): シンボリック音楽のためのバイトペア符号化
- Authors: Nathan Fradet, Jean-Pierre Briot, Fabien Chhel, Amal El Fallah
Seghrouchni, Nicolas Gutowski
- Abstract要約: Byte Pair(BPE)がディープラーニングモデルの結果をどのように改善し、性能を向上するかを示す。
音楽生成と作曲の分類実験を行い,BPEが組込み学習に与える影響について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The symbolic music modality is nowadays mostly represented as discrete and
used with sequential models such as Transformers, for deep learning tasks.
Recent research put efforts on the tokenization, i.e. the conversion of data
into sequences of integers intelligible to such models. This can be achieved by
many ways as music can be composed of simultaneous tracks, of simultaneous
notes with several attributes. Until now, the proposed tokenizations are based
on small vocabularies describing the note attributes and time events, resulting
in fairly long token sequences. In this paper, we show how Byte Pair Encoding
(BPE) can improve the results of deep learning models while improving its
performances. We experiment on music generation and composer classification,
and study the impact of BPE on how models learn the embeddings, and show that
it can help to increase their isotropy, i.e., the uniformity of the variance of
their positions in the space.
- Abstract(参考訳): シンボリック音楽のモダリティは、現在では主に離散的に表現され、ディープラーニングタスクのためにトランスフォーマーなどのシーケンシャルモデルで使用される。
近年の研究では、トークン化、すなわちそのようなモデルに理解可能な整数列へのデータの変換に努力している。
これは、音楽が複数の属性を持つ同時音符の同時トラックで構成できるため、様々な方法で達成できる。
これまで提案されていたトークン化は、note属性とタイムイベントを記述した小さな語彙に基づいており、結果としてかなり長いトークンシーケンスになる。
本稿では,Byte Pair Encoding(BPE)がディープラーニングモデルの結果を向上し,性能を向上する方法について述べる。
音楽生成と作曲家の分類を実験し,BPEがモデルがどのように埋め込みを学習するかについて検討し,その等方性,すなわち空間における位置のばらつきの均一性を高めることに役立つことを示す。
関連論文リスト
- Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation [7.659816122873334]
言語処理では、変換器は圧縮されたテキストから大いに恩恵を受ける。
これは、平易な文字の代わりに単語の断片をキャプチャするより大きな語彙によって達成される。
私たちの仕事はByte Pairの導入によって視覚データのトークン化を改善します。
1次元から複数の次元へ。
論文 参考訳(メタデータ) (2024-11-15T15:36:48Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Nested Music Transformer: Sequentially Decoding Compound Tokens in Symbolic Music and Audio Generation [2.668651175000492]
記号音楽は複合トークンで表現され、それぞれのトークンはいくつかの異なるサブトークンから構成される。
我々はNested Music Transformer(NMT)を紹介した。これは、フラット化トークンの処理と似ているが、メモリ使用量の少ない複合トークンを自動回帰的に復号するアーキテクチャである。
実験の結果,複合トークンにNMTを適用することで,MAESTROデータセットから様々なシンボリック音楽データセットや離散音声トークンを処理する際の難易度が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-02T11:02:38Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文 参考訳(メタデータ) (2023-11-15T00:57:51Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Compound Word Transformer: Learning to Compose Full-Song Music over
Dynamic Directed Hypergraphs [34.976342712112476]
我々は、ノートタイプやメトリックタイプなどのトークンの種類を考慮に入れた概念的に異なるアプローチを提示します。
得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。
実験では,最先端モデルと比較して,提案モデルが5~10倍高速に収束することを示す。
論文 参考訳(メタデータ) (2021-01-07T06:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。