Fugu-MT 論文翻訳(概要): Byte Pair Encoding for Symbolic Music

論文の概要: Byte Pair Encoding for Symbolic Music

arxiv url: http://arxiv.org/abs/2301.11975v1
Date: Fri, 27 Jan 2023 20:22:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 20:01:39.698217
Title: Byte Pair Encoding for Symbolic Music
Title（参考訳）: シンボリック音楽のためのバイトペア符号化
Authors: Nathan Fradet, Jean-Pierre Briot, Fabien Chhel, Amal El Fallah Seghrouchni, Nicolas Gutowski
Abstract要約: Byte Pair(BPE)がディープラーニングモデルの結果をどのように改善し、性能を向上するかを示す。音楽生成と作曲の分類実験を行い,BPEが組込み学習に与える影響について検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The symbolic music modality is nowadays mostly represented as discrete and used with sequential models such as Transformers, for deep learning tasks. Recent research put efforts on the tokenization, i.e. the conversion of data into sequences of integers intelligible to such models. This can be achieved by many ways as music can be composed of simultaneous tracks, of simultaneous notes with several attributes. Until now, the proposed tokenizations are based on small vocabularies describing the note attributes and time events, resulting in fairly long token sequences. In this paper, we show how Byte Pair Encoding (BPE) can improve the results of deep learning models while improving its performances. We experiment on music generation and composer classification, and study the impact of BPE on how models learn the embeddings, and show that it can help to increase their isotropy, i.e., the uniformity of the variance of their positions in the space.
Abstract（参考訳）: シンボリック音楽のモダリティは、現在では主に離散的に表現され、ディープラーニングタスクのためにトランスフォーマーなどのシーケンシャルモデルで使用される。近年の研究では、トークン化、すなわちそのようなモデルに理解可能な整数列へのデータの変換に努力している。これは、音楽が複数の属性を持つ同時音符の同時トラックで構成できるため、様々な方法で達成できる。これまで提案されていたトークン化は、note属性とタイムイベントを記述した小さな語彙に基づいており、結果としてかなり長いトークンシーケンスになる。本稿では,Byte Pair Encoding(BPE)がディープラーニングモデルの結果を向上し,性能を向上する方法について述べる。音楽生成と作曲家の分類を実験し,BPEがモデルがどのように埋め込みを学習するかについて検討し,その等方性,すなわち空間における位置のばらつきの均一性を高めることに役立つことを示す。

関連論文リスト

Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文参考訳（メタデータ） (2025-02-10T13:50:12Z)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。 SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-16T18:58:57Z)
Whisper-GPT: A Hybrid Representation Audio Large Language Model [1.2328446298523066]
音声と音楽のための生成的大規模言語モデル(LLM)により,単一アーキテクチャの一部として連続的な音声表現と離散トークンを同時に扱うことができる。我々は,次のトークン予測において,我々のアーキテクチャが難易度と負のログライクなスコアを,音声と音楽のトークンベースのLLMと比較していかに改善するかを示す。
論文参考訳（メタデータ） (2024-12-16T05:03:48Z)
From Language Models over Tokens to Language Models over Characters [54.123846188068384]
現代の言語モデルは、$itcharacter$ stringsではなく$ittoken$ strings上の内部的、数学的に...分布である。本稿では,トークンレベル言語モデルから文字レベル言語への変換アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-12-04T21:19:20Z)
Multidimensional Byte Pair Encoding: Shortened Sequences for Improved Visual Data Generation [7.659816122873334]
言語処理では、変換器は圧縮されたテキストから大いに恩恵を受ける。これは、平易な文字の代わりに単語の断片をキャプチャするより大きな語彙によって達成される。私たちの仕事はByte Pairの導入によって視覚データのトークン化を改善します。 1次元から複数の次元へ。
論文参考訳（メタデータ） (2024-11-15T15:36:48Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文参考訳（メタデータ） (2024-08-05T09:37:21Z)
Nested Music Transformer: Sequentially Decoding Compound Tokens in Symbolic Music and Audio Generation [2.668651175000492]
記号音楽は複合トークンで表現され、それぞれのトークンはいくつかの異なるサブトークンから構成される。我々はNested Music Transformer(NMT)を紹介した。これは、フラット化トークンの処理と似ているが、メモリ使用量の少ない複合トークンを自動回帰的に復号するアーキテクチャである。実験の結果,複合トークンにNMTを適用することで,MAESTROデータセットから様々なシンボリック音楽データセットや離散音声トークンを処理する際の難易度が向上することがわかった。
論文参考訳（メタデータ） (2024-08-02T11:02:38Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文参考訳（メタデータ） (2023-11-15T00:57:51Z)
Linear-Time Modeling of Linguistic Structure: An Order-Theoretic Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文参考訳（メタデータ） (2023-05-24T11:47:35Z)
From Words to Music: A Study of Subword Tokenization Techniques in Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文参考訳（メタデータ） (2023-04-18T12:46:12Z)
Fast End-to-End Speech Recognition via a Non-Autoregressive Model and Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文参考訳（メタデータ） (2021-02-15T15:18:59Z)
Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs [34.976342712112476]
我々は、ノートタイプやメトリックタイプなどのトークンの種類を考慮に入れた概念的に異なるアプローチを提示します。得られたモデルは動的有向ハイパーグラフの学習者と見なすことができることを示す。実験では,最先端モデルと比較して,提案モデルが5～10倍高速に収束することを示す。
論文参考訳（メタデータ） (2021-01-07T06:57:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。