Fugu-MT 論文翻訳(概要): Byte Pair Encoding for Symbolic Music

論文の概要: Byte Pair Encoding for Symbolic Music

arxiv url: http://arxiv.org/abs/2301.11975v3
Date: Mon, 13 Nov 2023 18:24:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 22:28:03.330992
Title: Byte Pair Encoding for Symbolic Music
Title（参考訳）: シンボリック音楽のためのバイトペア符号化
Authors: Nathan Fradet, Nicolas Gutowski, Fabien Chhel, Jean-Pierre Briot
Abstract要約: Byte Pair 埋め込みは語彙サイズを増大させながらシーケンス長を著しく減少させる。我々は、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用し、その結果、より優れた結果と、生成および分類タスクにおける高速な推論の両方をもたらす。ソースコードはGithubと同伴のウェブサイトで共有されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When used with deep learning, the symbolic music modality is often coupled with language model architectures. To do so, the music needs to be tokenized, i.e. converted into a sequence of discrete tokens. This can be achieved by different approaches, as music can be composed of simultaneous tracks, of simultaneous notes with several attributes. Until now, the proposed tokenizations rely on small vocabularies of tokens describing the note attributes and time events, resulting in fairly long token sequences, and a sub-optimal use of the embedding space of language models. Recent research has put efforts on reducing the overall sequence length by merging embeddings or combining tokens. In this paper, we show that Byte Pair Encoding, a compression technique widely used for natural language, significantly decreases the sequence length while increasing the vocabulary size. By doing so, we leverage the embedding capabilities of such models with more expressive tokens, resulting in both better results and faster inference in generation and classification tasks. The source code is shared on Github, along with a companion website. Finally, BPE is directly implemented in MidiTok, allowing the reader to easily benefit from this method.
Abstract（参考訳）: ディープラーニングで使用する場合、シンボリック・ミュージック・モダリティはしばしば言語モデルアーキテクチャと結合される。そのためには、音楽はトークン化され、すなわち離散トークンの列に変換される必要がある。これは、音楽が複数の属性を持つ同時音符の同時トラックで構成されているため、異なるアプローチで達成できる。これまで、提案されたトークン化は、ノート属性と時間イベントを記述するトークンの小さな語彙に依存しており、かなり長いトークンシーケンスと、言語モデルの埋め込み空間の準最適利用をもたらす。近年の研究では、埋め込みとトークンを組み合わせることで、全体のシーケンス長を削減する取り組みが行われている。本稿では,自然言語に広く用いられている圧縮手法であるByte Pair Encodingが,語彙サイズを増大させながらシーケンス長を著しく減少させることを示す。これにより、より表現力のあるトークンでそのようなモデルの埋め込み能力を活用でき、その結果、生成および分類タスクにおけるより良い結果とより高速な推論の両方が得られる。ソースコードは、コンパニオンwebサイトとともにgithubで共有されている。最後に、BPEはMidiTokに直接実装されており、読み手はこの方法の恩恵を受けやすい。

関連論文リスト

Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文参考訳（メタデータ） (2025-02-10T13:50:12Z)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。 SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-16T18:58:57Z)
Whisper-GPT: A Hybrid Representation Audio Large Language Model [1.2328446298523066]
音声と音楽のための生成的大規模言語モデル(LLM)により,単一アーキテクチャの一部として連続的な音声表現と離散トークンを同時に扱うことができる。我々は,次のトークン予測において,我々のアーキテクチャが難易度と負のログライクなスコアを,音声と音楽のトークンベースのLLMと比較していかに改善するかを示す。
論文参考訳（メタデータ） (2024-12-16T05:03:48Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation [7.659816122873334]
言語処理では、変換器は圧縮されたテキストから大いに恩恵を受ける。これは、平易な文字の代わりに単語の断片をキャプチャするより大きな語彙によって達成される。私たちの仕事はByte Pairの導入によって視覚データのトークン化を改善します。 1次元から複数の次元へ。
論文参考訳（メタデータ） (2024-11-15T15:36:48Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-08-05T09:37:21Z)
Nested Music Transformer: Sequentially Decoding Compound Tokens in Symbolic Music and Audio Generation [2.668651175000492]
記号音楽は複合トークンで表現され、それぞれのトークンはいくつかの異なるサブトークンから構成される。我々はNested Music Transformer(NMT)を紹介した。これは、フラット化トークンの処理と似ているが、メモリ使用量の少ない複合トークンを自動回帰的に復号するアーキテクチャである。実験の結果,複合トークンにNMTを適用することで,MAESTROデータセットから様々なシンボリック音楽データセットや離散音声トークンを処理する際の難易度が向上することがわかった。
論文参考訳（メタデータ） (2024-08-02T11:02:38Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文参考訳（メタデータ） (2023-11-15T00:57:51Z)
Linear-Time Modeling of Linguistic Structure: An Order-Theoretic Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文参考訳（メタデータ） (2023-05-24T11:47:35Z)
From Words to Music: A Study of Subword Tokenization Techniques in Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文参考訳（メタデータ） (2023-04-18T12:46:12Z)
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文参考訳（メタデータ） (2021-02-15T15:18:59Z)
Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs [34.976342712112476]
我々は、ノートタイプやメトリックタイプなどのトークンの種類を考慮に入れた概念的に異なるアプローチを提示します。得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。実験では,最先端モデルと比較して,提案モデルが5～10倍高速に収束することを示す。
論文参考訳（メタデータ） (2021-01-07T06:57:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。