論文の概要: Boundless Byte Pair Encoding: Breaking the Pre-tokenization Barrier
- arxiv url: http://arxiv.org/abs/2504.00178v1
- Date: Mon, 31 Mar 2025 19:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:14.954770
- Title: Boundless Byte Pair Encoding: Breaking the Pre-tokenization Barrier
- Title(参考訳): バウンドレスバイトコードペアエンコーディング:事前トークン化バリアを壊す
- Authors: Craig W. Schmidt, Varshini Reddy, Chris Tanner, Yuval Pinter,
- Abstract要約: 事前トークン化は、コーパス内のトークンの分布を一般的なフル長の単語に歪ませる原因となる。
本研究では,境界制約を緩和する改良型BPEアルゴリズムであるBoundlessBを提案する。
我々のアプローチは、2つの完全プレトケンを選択的にスーパーワードと呼ぶより大きな単位にマージする。
- 参考スコア(独自算出の注目度): 4.300681074103876
- License:
- Abstract: Pre-tokenization, the initial step in many modern tokenization pipelines, segments text into smaller units called pretokens, typically splitting on whitespace and punctuation. While this process encourages having full, individual words as tokens, it introduces a fundamental limitation in most tokenization algorithms such as Byte Pair Encoding (BPE). Specifically, pre-tokenization causes the distribution of tokens in a corpus to heavily skew towards common, full-length words. This skewed distribution limits the benefits of expanding to larger vocabularies, since the additional tokens appear with progressively lower counts. To overcome this barrier, we propose BoundlessBPE, a modified BPE algorithm that relaxes the pretoken boundary constraint. Our approach selectively merges two complete pretokens into a larger unit we term a superword. Superwords are not necessarily semantically cohesive. For example, the pretokens " of" and " the" might be combined to form the superword " of the". This merging strategy results in a substantially more uniform distribution of tokens across a corpus than standard BPE, and compresses text more effectively, with an approximate 20% increase in bytes per token.
- Abstract(参考訳): プリトークン化(Pre-tokenization)は、多くの現代的なトークン化パイプラインの最初のステップであり、テキストをプリトークンと呼ばれる小さな単位に分割する。
このプロセスは、完全な個々の単語をトークンとして持つことを奨励するが、Byte Pair Encoding (BPE)のようなほとんどのトークン化アルゴリズムに基本的な制限を導入する。
特に、事前トークン化は、コーパス内のトークンの分布を一般的なフル長の単語に大きく歪ませる原因となる。
この歪んだ分布は、追加のトークンが徐々に低い数で現れるため、より大きな語彙に拡張する利点を制限する。
この障壁を克服するため,既知境界制約を緩和する改良型BPEアルゴリズムであるBoundlessBPEを提案する。
我々のアプローチは、2つの完全プレトケンを選択的にスーパーワードと呼ぶより大きな単位にマージする。
スーパーワードは必ずしも意味的な結束であるとは限らない。
例えば、pretokens " of" と "the" は、スーパーワード " of the" を形成するために結合される。
このマージ戦略により、コーパス全体のトークンの分布が標準のBPEよりも大幅に均一になり、トークン当たりのバイト数が約20%増加し、テキストをより効率的に圧縮する。
関連論文リスト
- LBPE: Long-token-first Tokenization to Improve Large Language Models [26.3619552256488]
意味情報に富んだ長いトークンは、短いトークンに比べてトークン化されたデータセットに少ない。
符号化プロセス中に長いトークンを優先するLBPEを提案する。
多様な言語モデリングタスクに対する実験は、LBPEが元のBPEよりも一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-11-08T12:03:36Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。
我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文 参考訳(メタデータ) (2024-07-25T16:13:58Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal [58.29382184006158]
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。