論文の概要: SupraTok: Cross-Boundary Tokenization for Enhanced Language Model Performance
- arxiv url: http://arxiv.org/abs/2508.11857v1
- Date: Sat, 16 Aug 2025 00:54:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.416061
- Title: SupraTok: Cross-Boundary Tokenization for Enhanced Language Model Performance
- Title(参考訳): SupraTok: 言語モデルのパフォーマンス向上のための境界を越えたトークン化
- Authors: Andrei-Valentin Tănase, Elena Pelican,
- Abstract要約: トークン化は、自然言語処理の根本的かつ未発見のボトルネックである。
サブワードセグメンテーションを再現する新しいトークン化アーキテクチャであるSupraTokを提案する。
提案手法は,英語のトークン化効率を31%向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization remains a fundamental yet underexplored bottleneck in natural language processing, with strategies largely static despite remarkable progress in model architectures. We present SupraTok, a novel tokenization architecture that reimagines subword segmentation through three innovations: cross-boundary pattern learning that discovers multi-word semantic units, entropy-driven data curation that optimizes training corpus quality, and multi-phase curriculum learning for stable convergence. Our approach extends Byte-Pair Encoding by learning "superword" tokens, coherent multi-word expressions that preserve semantic unity while maximizing compression efficiency. SupraTok achieves 31% improvement in English tokenization efficiency (5.91 versus 4.51 characters per token) compared to OpenAI's o200k tokenizer and 30% improvement over Google's Gemma 3 tokenizer (256k vocabulary), while maintaining competitive performance across 38 languages. When integrated with a GPT-2 scale model (124M parameters) trained on 10 billion tokens from the FineWeb-Edu dataset, SupraTok yields 8.4% improvement on HellaSWAG and 9.5% on MMLU benchmarks without architectural modifications. While these results are promising at this scale, further validation at larger model scales is needed. These findings suggest that efficient tokenization can complement architectural innovations as a path to improved language model performance.
- Abstract(参考訳): トークン化は、モデルアーキテクチャの顕著な進歩にもかかわらず、戦略はほぼ静的である、自然言語処理において、根本的かつ過小評価されているボトルネックであり続けている。
In this present SupraTok, a novel tokenization architecture that reimagines subword segmentation through three innovations: cross-boundary pattern learning that discovers multi-word semantic unit, entropy-driven data curation that optimizes corpus quality, and multi-phase curriculum learning for stable convergence。
提案手法は,圧縮効率を最大化しながらセマンティック・ユニティを保ちながら,セマンティック・ユニティを維持するコヒーレントなマルチワード表現である「スーパーワード」トークンを学習し,Byte-Pair Encodingを拡張した。
SupraTokは、OpenAIのo200kトークンライザと比較して、英語のトークン化効率(5.91対4.51文字)が31%向上し、GoogleのGemma 3トークンライザ(256k語彙)よりも30%向上した。
FineWeb-Eduデータセットから100億のトークンでトレーニングされたGPT-2スケールモデル(124Mパラメータ)と統合されると、SupraTokはHellaSWAGで8.4%、MMLUベンチマークで9.5%改善した。
これらの結果は、この規模では有望であるが、より大きなモデルスケールでのさらなる検証が必要である。
これらの結果から,効率的なトークン化は,言語モデルの性能向上への道筋として,アーキテクチャの革新を補完する可能性が示唆された。
関連論文リスト
- The Art of Breaking Words: Rethinking Multilingual Tokenizer Design [21.9940001977516]
既存のトークン化器は高いトークン対ワード比、文脈長の非効率な使用、推論の遅さを示す。
本稿では,語彙サイズ,事前トークン化規則,トレーニングコーパス構成をトークン・ツー・ワード効率とモデル品質の両方に関連付ける体系的な研究を提案する。
我々のトークンライザは、最先端の多言語インデックスモデルに対して平均トークン対ワード比を40%以上改善する。
論文 参考訳(メタデータ) (2025-08-03T15:31:10Z) - Improving Contextual ASR via Multi-grained Fusion with Large Language Models [12.755830619473368]
本稿では,Large Language Models (LLMs) によるトークンレベルとフレーズレベルの融合の強みを両立させる,新しい多層融合手法を提案する。
提案手法は,ASRの音響情報とLLMの豊富な文脈知識を組み合わせ,詳細なトークン精度と全体論的フレーズレベルの理解のバランスをとる,遅延融合戦略を取り入れたものである。
中国語と英語のデータセットを用いた実験により,キーワード関連メトリクスの最先端性能が得られた。
論文 参考訳(メタデータ) (2025-07-16T13:59:32Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Towards Typologically Aware Rescoring to Mitigate Unfaithfulness in Lower-Resource Languages [9.426642998924724]
多言語大言語モデルは、資源制約言語で非忠実な出力を生成する。
このような設定における不誠実さを軽減するため、我々は計算学的に軽量な補助モデルを用いて、より大きなアーキテクチャの出力を再評価する。
我々は,700MB未満のデータに対して,スクラッチから事前訓練した単言語4層BERTモデルにより,忠実な要約を88.33%の平均精度で識別可能であることを示した。
論文 参考訳(メタデータ) (2025-02-24T21:22:19Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。
特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。
SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文 参考訳(メタデータ) (2024-12-16T18:58:57Z) - PanGu-{\Sigma}: Towards Trillion Parameter Language Model with Sparse
Heterogeneous Computing [64.53242758625922]
PanGu-SigmaはAscend 910 AIプロセッサとMindSporeフレームワークのクラスタでトレーニングされている。
さまざまな中国のNLPダウンストリームタスクのゼロショット学習において、最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-03-20T03:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。