論文の概要: Theoretical Analysis of Byte-Pair Encoding
- arxiv url: http://arxiv.org/abs/2411.08671v1
- Date: Wed, 13 Nov 2024 15:04:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:10:51.435259
- Title: Theoretical Analysis of Byte-Pair Encoding
- Title(参考訳): バイトペア符号化の理論解析
- Authors: László Kozma, Johannes Voderholzer,
- Abstract要約: Byte-Pair (BPE) はサブワードトークン化の手法として広く使われている。
BPEは、最適ペア符号化の圧縮効率を最悪の要因に近似することを示した。
- 参考スコア(独自算出の注目度): 0.8655526882770742
- License:
- Abstract: Byte-Pair Encoding (BPE) is a widely used method for subword tokenization, with origins in grammar-based text compression. It is employed in a variety of language processing tasks such as machine translation or large language model (LLM) pretraining, to create a token dictionary of a prescribed size. Most evaluations of BPE to date are empirical, and the reasons for its good practical performance are not well understood. In this paper we focus on the optimization problem underlying BPE: finding a pair encoding that achieves optimal compression utility. We show that this problem is APX-complete, indicating that it is unlikely to admit a polynomial-time approximation scheme. This answers, in a stronger form, a question recently raised by Zouhar et al. On the positive side, we show that BPE approximates the compression utility of the optimal pair encoding to a worst-case factor between $0.333$ and $0.625$. Our results aim to explain the ongoing success of BPE and are, to our knowledge, the first rigorous guarantees on its compression utility that hold for all inputs.
- Abstract(参考訳): Byte-Pair Encoding (BPE) はサブワードのトークン化に広く用いられている手法であり、文法ベースのテキスト圧縮に起源がある。
機械翻訳や大型言語モデル(LLM)事前訓練などの様々な言語処理タスクで使われ、所定の大きさのトークン辞書を作成する。
現在までのBPEの評価のほとんどは経験的であり、その優れた実用性能の理由がよく理解されていない。
本稿では,BPEの基盤となる最適化問題,すなわち最適な圧縮性を実現するペアエンコーディングを見つけることに焦点を当てる。
この問題はAPX完全であることを示し、多項式時間近似スキームが認められないことを示す。
この答えは、Zouharらによって最近提起された、より強い形で、正の面において、BPEは最適なペアの符号化の圧縮ユーティリティを、0.333$から0.625$の最悪の要素に近似していることを示す。
本研究の目的は,BPEの継続的な成功を説明することであり,すべての入力を格納する圧縮ユーティリティに関する厳密な保証である。
関連論文リスト
- BPE Gets Picky: Efficient Vocabulary Refinement During Tokenizer Training [8.012203293561196]
Picky BPE(ピッキー・BPE)は、トークンーザのトレーニング中に語彙の洗練を行う改良型BPEアルゴリズムである。
本手法は語彙効率を向上し,未学習のトークンを排除し,テキスト圧縮を損なわない。
論文 参考訳(メタデータ) (2024-09-06T20:12:34Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Unpacking Tokenization: Evaluating Text Compression and its Correlation with Model Performance [34.641079276516926]
我々は,0-gram言語モデリングとみなす圧縮の理論的重要性を論じる。
事前学習した言語モデルの下流での成功に対する圧縮の実証的重要性を示す。
本稿では,トークン化器の圧縮とモデル下流性能の相関関係を示す。
論文 参考訳(メタデータ) (2024-03-10T17:02:53Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - A Formal Perspective on Byte-Pair Encoding [100.75374173565548]
Byte-Pairimation (BPE) は、当初圧縮法として考案されたものの、NLPでデータをトークン化するために使われる一般的なアルゴリズムである。
我々は、ランタイムの複雑さを$mathcalOleft(N log Mright)$から$mathcalOleft(N log Mright)$に改善するBPEのより高速な実装を提供しています。
論文 参考訳(メタデータ) (2023-06-29T10:29:23Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - LCP-dropout: Compression-based Multiple Subword Segmentation for Neural
Machine Translation [5.505045114759599]
データ圧縮アルゴリズムに基づくサブワードセグメンテーションのためのシンプルで効果的な前処理手法を提案する。
BPE/BPEドロップアウトは従来の手法と比較して最も高速で効果的な手法の1つである。
BPE/BPE/ドロップアウトを改善した複数単語セグメンテーションのためのLCP-dropoutを提案する。
論文 参考訳(メタデータ) (2022-02-28T07:49:07Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。