論文の概要: Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization
- arxiv url: http://arxiv.org/abs/2508.04796v1
- Date: Wed, 06 Aug 2025 18:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.613379
- Title: Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization
- Title(参考訳): パリティ対応バイトペア符号化:トークン化における言語間フェアネスの改善
- Authors: Negar Foroutan, Clara Meister, Debjit Paul, Joel Niklaus, Sina Ahmadi, Antoine Bosselut, Rico Sennrich,
- Abstract要約: トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
- 参考スコア(独自算出の注目度): 62.35048154917945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization is the first -- and often least scrutinized -- step of most NLP pipelines. Standard algorithms for learning tokenizers rely on frequency-based objectives, which favor languages dominant in the training data and consequently leave lower-resource languages with tokenizations that are disproportionately longer, morphologically implausible, or even riddled with <UNK> placeholders. This phenomenon ultimately amplifies computational and financial inequalities between users from different language backgrounds. To remedy this, we introduce Parity-aware Byte Pair Encoding (BPE), a variant of the widely-used BPE algorithm. At every merge step, Parity-aware BPE maximizes the compression gain of the currently worst-compressed language, trading a small amount of global compression for cross-lingual parity. We find empirically that Parity-aware BPE leads to more equitable token counts across languages, with negligible impact on global compression rate and no substantial effect on language-model performance in downstream tasks.
- Abstract(参考訳): トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンライザを学習するための標準的なアルゴリズムは、トレーニングデータに支配的な言語を優先する周波数ベースの目的に依存しており、その結果、不均等に長く、形態的には理解できない、あるいは<UNK>プレースホルダーで取り除かれるような、低リソースの言語にトークン化を委ねている。
この現象は最終的に、異なる言語バックグラウンドを持つユーザ間の計算的および金銭的不平等を増幅する。
これを解決するために、広く使われているBPEアルゴリズムの変種であるParity-aware Byte Pair Encoding (BPE)を導入する。
マージステップ毎に、Parity対応のBPEは、現在最悪の圧縮言語であるBPEの圧縮ゲインを最大化し、言語間のパーティのために少数のグローバル圧縮を取引する。
我々は,Parityを意識したBPEが,グローバル圧縮速度に無視できない影響を及ぼし,下流タスクにおける言語モデルの性能に重大な影響を与えないことを実証的に見出した。
関連論文リスト
- Entropy-Driven Pre-Tokenization for Byte-Pair Encoding [4.145560327709288]
2つのエントロピーインフォームドプレトークン化戦略は、教師なし情報理論を用いたBPEセグメンテーションを導く。
両手法をPKUデータセットのサブセット上で評価し,通常のBPEと比較して,セグメンテーション精度,リコール,F1スコアが大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-18T21:25:55Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - SuperBPE: Space Travel for Language Models [112.64910939119056]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T19:11:54Z) - Theoretical Analysis of Byte-Pair Encoding [0.8655526882770742]
Byte-Pair (BPE) はサブワードトークン化の手法として広く使われている。
BPEは、最適ペア符号化の圧縮効率を最悪の要因に近似することを示した。
論文 参考訳(メタデータ) (2024-11-13T15:04:02Z) - Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal [58.29382184006158]
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Byte Pair Encoding Is All You Need For Automatic Bengali Speech
Recognition [0.0]
バイトペア符号化(BPE)は、oo-of-vocabulary(OOV)課題に対処するための効果的なトークン化手法として現れる。
最近の研究は、BPEサブワードトークン化の有効性が言語の形態学的性質に依存していることを強調している。
本研究は,ベンガル語に対するBPEトークンの最適個数を実験的に同定した。
論文 参考訳(メタデータ) (2024-01-28T00:41:21Z) - Efficient Weight factorization for Multilingual Speech Recognition [67.00151881207792]
エンドツーエンドの多言語音声認識は、多くの言語を含む合成音声コーパスで単一のモデルトレーニングを使用する。
トレーニングデータの各言語には異なる特徴があるため、共有ネットワークは、すべての言語を同時に最適化するのに苦労する可能性がある。
ニューラルネットワークのコア動作をターゲットとした新しい多言語アーキテクチャを提案する:線形変換関数。
論文 参考訳(メタデータ) (2021-05-07T00:12:02Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。