論文の概要: Entropy-Driven Pre-Tokenization for Byte-Pair Encoding
- arxiv url: http://arxiv.org/abs/2506.15889v1
- Date: Wed, 18 Jun 2025 21:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.864414
- Title: Entropy-Driven Pre-Tokenization for Byte-Pair Encoding
- Title(参考訳): マイクロペア符号化のためのエントロピー駆動プリトークン化
- Authors: Yifan Hu, Frank Liang, Dachuan Zhao, Jonathan Geuter, Varshini Reddy, Craig W. Schmidt, Chris Tanner,
- Abstract要約: 2つのエントロピーインフォームドプレトークン化戦略は、教師なし情報理論を用いたBPEセグメンテーションを導く。
両手法をPKUデータセットのサブセット上で評価し,通常のBPEと比較して,セグメンテーション精度,リコール,F1スコアが大幅に向上したことを示す。
- 参考スコア(独自算出の注目度): 4.145560327709288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Byte-Pair Encoding (BPE) has become a widely adopted subword tokenization method in modern language models due to its simplicity and strong empirical performance across downstream tasks. However, applying BPE to unsegmented languages such as Chinese presents significant challenges, as its frequency-driven merge operation is agnostic to linguistic boundaries. To address this, we propose two entropy-informed pre-tokenization strategies that guide BPE segmentation using unsupervised information-theoretic cues. The first approach uses pointwise mutual information and left/right entropy to identify coherent character spans, while the second leverages predictive entropy derived from a pretrained GPT-2 model to detect boundary uncertainty. We evaluate both methods on a subset of the PKU dataset and demonstrate substantial improvements in segmentation precision, recall, and F1 score compared to standard BPE. Our results suggest that entropy-guided pre-tokenization not only enhances alignment with gold-standard linguistic units but also offers a promising direction for improving tokenization quality in low-resource and multilingual settings.
- Abstract(参考訳): Byte-Pair Encoding (BPE) は、下流タスクの単純さと強力な経験的性能により、現代の言語モデルにおいて広く採用されているサブワードトークン化手法となっている。
しかし、中国語などの未分類言語にBPEを適用することは、その周波数駆動型マージ操作が言語境界に依存しないため、重大な課題を呈している。
そこで本研究では,教師なし情報理論手法を用いて,BPEセグメンテーションを誘導する2つのエントロピーインフォームプリトークン化戦略を提案する。
第1のアプローチでは、ポイントワイドな相互情報と左右のエントロピーを用いてコヒーレントな文字幅を識別し、第2のアプローチでは、事前訓練されたGPT-2モデルから導かれる予測エントロピーを利用して境界の不確実性を検出する。
両手法をPKUデータセットのサブセット上で評価し,通常のBPEと比較して,セグメンテーション精度,リコール,F1スコアが大幅に向上したことを示す。
以上の結果から, エントロピー誘導による事前トークン化は, 金標準言語単位との整合性を高めるだけでなく, 低リソースおよび多言語設定におけるトークン化品質向上に有望な方向性をもたらすことが示唆された。
関連論文リスト
- MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T19:11:54Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。