論文の概要: Byte Pair Encoding for Symbolic Music
- arxiv url: http://arxiv.org/abs/2301.11975v3
- Date: Mon, 13 Nov 2023 18:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 22:28:03.330992
- Title: Byte Pair Encoding for Symbolic Music
- Title(参考訳): シンボリック音楽のためのバイトペア符号化
- Authors: Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean-Pierre Briot
- Abstract要約: Byte Pair 埋め込みは語彙サイズを増大させながらシーケンス長を著しく減少させる。
我々は、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用し、その結果、より優れた結果と、生成および分類タスクにおける高速な推論の両方をもたらす。
ソースコードはGithubと同伴のウェブサイトで共有されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When used with deep learning, the symbolic music modality is often coupled
with language model architectures. To do so, the music needs to be tokenized,
i.e. converted into a sequence of discrete tokens. This can be achieved by
different approaches, as music can be composed of simultaneous tracks, of
simultaneous notes with several attributes. Until now, the proposed
tokenizations rely on small vocabularies of tokens describing the note
attributes and time events, resulting in fairly long token sequences, and a
sub-optimal use of the embedding space of language models. Recent research has
put efforts on reducing the overall sequence length by merging embeddings or
combining tokens. In this paper, we show that Byte Pair Encoding, a compression
technique widely used for natural language, significantly decreases the
sequence length while increasing the vocabulary size. By doing so, we leverage
the embedding capabilities of such models with more expressive tokens,
resulting in both better results and faster inference in generation and
classification tasks. The source code is shared on Github, along with a
companion website. Finally, BPE is directly implemented in MidiTok, allowing
the reader to easily benefit from this method.
- Abstract(参考訳): ディープラーニングで使用する場合、シンボリック・ミュージック・モダリティはしばしば言語モデルアーキテクチャと結合される。
そのためには、音楽はトークン化され、すなわち離散トークンの列に変換される必要がある。
これは、音楽が複数の属性を持つ同時音符の同時トラックで構成されているため、異なるアプローチで達成できる。
これまで、提案されたトークン化は、ノート属性と時間イベントを記述するトークンの小さな語彙に依存しており、かなり長いトークンシーケンスと、言語モデルの埋め込み空間の準最適利用をもたらす。
近年の研究では、埋め込みとトークンを組み合わせることで、全体のシーケンス長を削減する取り組みが行われている。
本稿では,自然言語に広く用いられている圧縮手法であるByte Pair Encodingが,語彙サイズを増大させながらシーケンス長を著しく減少させることを示す。
これにより、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用でき、その結果、生成および分類タスクにおけるより良い結果とより高速な推論の両方が得られる。
ソースコードは、コンパニオンwebサイトとともにgithubで共有されている。
最後に、BPEはMidiTokに直接実装されており、読み手はこの方法の恩恵を受けやすい。
関連論文リスト
- Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文 参考訳(メタデータ) (2023-11-15T00:57:51Z) - Learn Your Tokens: Word-Pooled Tokenization for Language Modeling [11.40976202290724]
言語モデルは典型的には、トークンを長い文字列に組み合わせた決定論的手作業で、テキストをサブワードにトークン化する。
最近のコンテクスト長の圧縮と制限の試みは,単語境界を完全に無視するが有用である。
本稿では,単語境界を利用して単語表現にバイト/文字をプールする「学習する」方式について考察する。
論文 参考訳(メタデータ) (2023-10-17T23:34:39Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - SWAT: Spatial Structure Within and Among Tokens [53.525469741515884]
我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:38Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Compound Word Transformer: Learning to Compose Full-Song Music over
Dynamic Directed Hypergraphs [34.976342712112476]
我々は、ノートタイプやメトリックタイプなどのトークンの種類を考慮に入れた概念的に異なるアプローチを提示します。
得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。
実験では,最先端モデルと比較して,提案モデルが5~10倍高速に収束することを示す。
論文 参考訳(メタデータ) (2021-01-07T06:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。