論文の概要: Significance-Gain Pair Encoding for LLMs: A Statistical Alternative to Frequency-Based Subword Merging
- arxiv url: http://arxiv.org/abs/2603.19261v1
- Date: Thu, 26 Feb 2026 20:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.798896
- Title: Significance-Gain Pair Encoding for LLMs: A Statistical Alternative to Frequency-Based Subword Merging
- Title(参考訳): LLMの有意ゲインペアエンコーディング:周波数ベースサブワードマージに対する統計的代替手段
- Authors: Azam Nouri,
- Abstract要約: Significance-Gain BPE は、独立型ヌルモデルの下でz統計による凝集を測定する代替マージ基準である。
検証とテストの難易度をそれぞれ13%、テストの難易度を12%削減し、検証とテストのBPCを0.9~1.0%改善する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword tokenization is a key design choice for modern language models, including large language models (LLMs), with byte- and character-level BPE serving as a widely used baseline. Standard BPE selects merges by raw pair frequency, which favors compression but can conflate true adjacency cohesion with pairs that are frequent due to high marginal counts. This paper introduces Significance-Gain BPE, a drop-in alternative merge criterion that measures cohesion via a z-statistic under an independence null model and combines it with an explicit compression-aware gain term. Significance-Gain BPE is evaluated on WikiText-103 (raw) character slices using a small causal Transformer language model, reporting both token-dependent perplexity and the tokenizer-invariant metric bits per character (BPC). At a representative operating point, Significance-Gain BPE reduces validation and test perplexity by 13% and 12%, respectively, and improves validation and test BPC by about 0.9 to 1.0%. A vocabulary-size sweep further shows lower BPC in most closest-compression comparisons, suggesting that statistically grounded merge selection can improve predictive efficiency per unit of raw text across a range of compression regimes.
- Abstract(参考訳): 代名詞のトークン化は、大規模言語モデル(LLM)を含む現代の言語モデルにとって重要な設計選択であり、バイトレベルと文字レベルのBPEが広く使われているベースラインとして機能する。
標準BPEは、圧縮を好むが、高い限界数のために頻繁に発生するペアと真の隣接結合を折り畳むことができる生のペア周波数でマージを選択する。
本稿では,Z統計による結合度を独立型Nullモデルで測定し,明示的な圧縮認識ゲイン項と組み合わせた,ドロップインの代替マージ基準であるSignificance-Gain BPEを紹介する。
WikiText-103 (raw) 文字スライスを小さな因果トランスフォーマー言語モデルを用いて評価し、トークン依存のパープレキシティと文字単位のトークン化不変距離ビット(BPC)の両方を報告する。
代表的な動作点において、Significance-Gain BPEは、検証とテストの難易度をそれぞれ13%、テストの難易度を12%削減し、検証とテストのBPCを約0.9〜1.0%改善する。
ボキャブラリサイズのスイープは、最も近い圧縮比較においてBPCよりも低い値を示し、統計的に基底付けられたマージ選択は、様々な圧縮体制にわたって原文単位当たりの予測効率を向上させることを示唆している。
関連論文リスト
- Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization [53.22544362024936]
トークン化は、ほとんどのNLPパイプラインの最初の、そして最も精査されていないステップである。
トークンの学習のための標準的なアルゴリズムは、周波数ベースの目的に依存している。
本稿ではParity-aware Byte Pairを紹介する。
私たちは、パリティを意識したBPEが言語間でより公平なトークン数をもたらすことを実証的に見出した。
論文 参考訳(メタデータ) (2025-08-06T18:14:43Z) - Entropy-Driven Pre-Tokenization for Byte-Pair Encoding [4.145560327709288]
2つのエントロピーインフォームドプレトークン化戦略は、教師なし情報理論を用いたBPEセグメンテーションを導く。
両手法をPKUデータセットのサブセット上で評価し,通常のBPEと比較して,セグメンテーション精度,リコール,F1スコアが大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-18T21:25:55Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [18.594241501479747]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
古典的Byte-pairを適用する前に, 形態素認識のセグメンテーションを事前学習のステップとして提案する。
音節ベースの書記システムに共通する係り受け母音を扱うために,制約付きBPE(CBPE)を提案する。
CBPEは従属母音を扱い、単一の単位として発生するのではなく、他の文字との結合単位を形成する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。