論文の概要: BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization
- arxiv url: http://arxiv.org/abs/2505.24689v1
- Date: Fri, 30 May 2025 15:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.025299
- Title: BPE Stays on SCRIPT: Structured Encoding for Robust Multilingual Pretokenization
- Title(参考訳): SCRIPT上のBPEスタンバイ:ロバストな多言語事前処理のための構造化符号化
- Authors: Sander Land, Catherine Arnett,
- Abstract要約: SCRIPT (Script Category Representation in PreTokenization) は、Unicodeスクリプトとカテゴリプロパティに基づいた初期トークンを使用することで、バイト8変換をバイパスする新しい符号化方式である。
実験により,SCRIPT-BPEは,非ラテン文字言語に対する符号化に基づくペナルティを排除しながら,競合圧縮を実現することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Byte Pair Encoding (BPE) tokenizers, widely used in Large Language Models, face challenges in multilingual settings, including penalization of non-Western scripts and the creation of tokens with partial UTF-8 sequences. Pretokenization, often reliant on complex regular expressions, can also introduce fragility and unexpected edge cases. We propose SCRIPT (Script Category Representation in PreTokenization), a novel encoding scheme that bypasses UTF-8 byte conversion by using initial tokens based on Unicode script and category properties. This approach enables a simple, rule-based pretokenization strategy that respects script boundaries, offering a robust alternative to pretokenization strategies based on regular expressions. We also introduce and validate a constrained BPE merging strategy that enforces character integrity, applicable to both SCRIPT-BPE and byte-based BPE. Our experiments demonstrate that SCRIPT-BPE achieves competitive compression while eliminating encoding-based penalties for non-Latin-script languages.
- Abstract(参考訳): バイトペアエンコーディング(BPE)トークンライザは、大規模な言語モデルで広く使われているが、西洋以外のスクリプトのペナル化や、UTF-8の一部配列によるトークンの作成など、多言語設定において課題に直面している。
プリトケン化は、しばしば複雑な正規表現に依存するが、脆弱性や予期せぬエッジケースも導入する。
我々は,Unicodeスクリプトとカテゴリ特性に基づいた初期トークンを用いてUTF-8バイト変換をバイパスする新しい符号化方式であるSCRIPT(Script Category Representation in PreTokenization)を提案する。
このアプローチは、スクリプト境界を尊重するシンプルなルールベースのプリトークン化戦略を可能にし、正規表現に基づいたプリトークン化戦略の堅牢な代替手段を提供する。
また、SCRIPT-BPEとバイトベースのBPEの両方に適用可能な、文字整合性を強制する制約付きBPEマージ戦略を導入し、検証する。
実験により,SCRIPT-BPEは,非ラテン文字言語に対する符号化に基づくペナルティを排除しながら,競合圧縮を実現することを示した。
関連論文リスト
- MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - SuperBPE: Space Travel for Language Models [112.64910939119056]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal [58.29382184006158]
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。