論文の概要: Tokenization with Split Trees
- arxiv url: http://arxiv.org/abs/2605.22705v2
- Date: Tue, 26 May 2026 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.871934
- Title: Tokenization with Split Trees
- Title(参考訳): スプリットツリーによるトークン化
- Authors: Craig W. Schmidt, Michael Krumdick, Adam Wiemerslage, Seth Ebner, Varshini Reddy, Yuval Pinter, Chris Tanner,
- Abstract要約: ToaST(Tokenization with Split Trees)は、圧縮を直接最適化するサブワードトークン化手法である。
ToaSTは、40,960以上の語彙サイズでBPE、WordPiece、UnigramLMと比較してトークン数を11%以上削減する。
1.5Bパラメータ言語モデルのトレーニングでは、ToaSTが最高スコアを獲得し、ベースラインの2.6%から7.6%を上回り、3つのうち2つが重要であり、22のタスクのうち13つが最高スコアである。
- 参考スコア(独自算出の注目度): 14.246587182553952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Tokenization with Split Trees (ToaST), a subword tokenization method that directly optimizes compression under a new recursive inference procedure. ToaST greedily splits each pretoken into a full binary tree using precomputed byte n-gram counts, independent of any vocabulary. Given a vocabulary, inference recursively descends each split tree and emits the first in-vocabulary node reached on each path. Vocabulary selection is formulated as an Integer Program (IP) that minimizes the total token count over all split trees under this inference procedure. The Linear Programming (LP) relaxation is near-integral in practice, yielding provably near-optimal vocabularies, with training time empirically scaling quadratically in the number of split trees. On English text, ToaST reduces token counts by more than 11% compared to BPE, WordPiece, and UnigramLM at vocabulary sizes of 40,960 and above, reducing the number of inference tokens for models using this tokenizer, thus extending the effective context length. ToaST also uses common single-byte tokens less frequently than these baselines, leading to a substantial improvement in Renyi efficiency. In experiments training 1.5B parameter language models, ToaST achieves the highest CORE score, outperforming baselines by 2.6%--7.6%, with significance for two of three, and scoring best on 13 of 22 individual tasks.
- Abstract(参考訳): Tokenization with Split Trees (ToaST) は、新しい再帰的推論手順の下で直接圧縮を最適化するサブワードトークン化手法である。
ToaSTは、事前に計算されたバイト n-gram カウントを使用して、各プリトーケンを、任意の語彙に依存しない完全なバイナリツリーにグレード的に分割する。
語彙が与えられたとき、推論は各分割木を再帰的に下降させ、各経路に到達した最初の語彙内ノードを出力する。
語彙選択は Integer Program (IP) として定式化され、この推論手順の下ですべての分割木に対するトークンの合計数を最小化する。
線形プログラミング(LP)緩和は、実際にはほぼ一体的であり、明らかに最適に近い語彙が得られ、訓練時間は分割木数で2次的にスケールする。
英語のテキストでは、ToaSTはBPE、WordPiece、UnigramLMを40,960以上の語彙サイズで比較するとトークン数を11%以上削減し、このトークン化器を用いたモデルに対する推論トークンの数を減らし、有効コンテキスト長を延長する。
ToaSTはまた、一般的なシングルバイトトークンをこれらのベースラインよりも少ない頻度で使用し、Renyi効率を大幅に改善した。
1.5Bパラメータ言語モデルのトレーニングでは、ToaSTは最高COREスコアを達成し、ベースラインの2.6%から7.6%を上回り、3つのうち2つを重要視し、22のタスクのうち13つを最高点とする。
関連論文リスト
- Efficient Test-Time Inference via Deterministic Exploration of Truncated Decoding Trees [68.04613115686509]
自己整合性は、複数の推論トレースを並列にサンプリングし、投票することで、推論時間のパフォーマンスを向上させる。
そこで本研究では,切り落された標本を伐採木として扱う決定論的復号法であるDLE(Distinct Leafion)を提案する。
DLEは高品質な推論トレースを調査し、数学、コーディング、一般的な推論タスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-04-22T12:42:03Z) - Cross-Tokenizer Likelihood Scoring Algorithms for Language Model Distillation [19.671138538152213]
クロストークン化確率スコアリングのための確率的フレームワークを作成する。
本手法はGSM8Kの精度を現状よりも2%以上向上させる。
論文 参考訳(メタデータ) (2025-12-16T22:49:42Z) - Tree Matching Networks for Natural Language Inference: Parameter-Efficient Semantic Understanding via Dependency Parse Trees [0.0]
ツリーマッチングネットワーク(TMN)は、それらをスクラッチから学ぶことなく、事前にエンコードされた関係に関する情報を活用することができる。
TMNは、SNLIタスクに基づくBERTベースのモデルよりも、メモリフットプリントを大幅に削減し、トレーニング時間を大幅に短縮することで、はるかに優れた結果を得ることができる。
論文 参考訳(メタデータ) (2025-11-28T21:06:11Z) - RS-ORT: A Reduced-Space Branch-and-Bound Algorithm for Optimal Regression Trees [2.612627266839037]
MIP(Mixed-integer Programming)は最適な決定木を学習するための強力なフレームワークとして登場した。
連続的な特徴を内在的にバイナライズすることは、グローバルな最適性を犠牲にし、しばしば不必要に深い木を産み出す。
最適回帰木学習を2段階最適化問題として再放送し、RS-ORT(Reduceed-Space Optimal Regression Trees)を提案する。
RS-ORTは木構造変数のみに枝分かれする特殊分岐結合(BB)アルゴリズムである。
論文 参考訳(メタデータ) (2025-10-27T22:17:09Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - A Partition Cover Approach to Tokenization [24.595558878756787]
トークン化とは、文字列を一定の語彙サイズのトークンに符号化するプロセスである。
Byte-Pair corpora (BPE) は、トークン化問題を圧縮問題として定式化し、マージのシーケンスを実行することでそれに取り組む。
GreedTokは圧縮においてBPEやUnigramよりも優れており、GreedWMCに匹敵するカバースコアが得られることを示す。
論文 参考訳(メタデータ) (2025-01-08T17:07:07Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Syntactic representation learning for neural network based TTS with
syntactic parse tree traversal [49.05471750563229]
本稿では,構文解析木に基づく構文表現学習手法を提案し,構文構造情報を自動的に活用する。
実験の結果,提案手法の有効性が示された。
複数の構文解析木を持つ文では、合成音声から韻律的差異が明確に認識される。
論文 参考訳(メタデータ) (2020-12-13T05:52:07Z) - Span-based Semantic Parsing for Compositional Generalization [53.24255235340056]
SpanBasedSPは入力発話上のスパンツリーを予測し、部分的なプログラムが入力内のスパンをどのように構成するかを明示的に符号化する。
GeoQuery、SCAN、CLOSUREでは、SpanBasedSPはランダムスプリットの強いseq2seqベースラインと似ているが、構成一般化を必要とするスプリットのベースラインに比べて劇的に性能が向上する。
論文 参考訳(メタデータ) (2020-09-13T16:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。