論文の概要: A Triadic Suffix Tokenization Scheme for Numerical Reasoning
- arxiv url: http://arxiv.org/abs/2604.11582v3
- Date: Mon, 20 Apr 2026 22:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.604375
- Title: A Triadic Suffix Tokenization Scheme for Numerical Reasoning
- Title(参考訳): 数値推論のための三進接尾辞化方式
- Authors: Olga Chetverina,
- Abstract要約: 本稿では,3桁を3桁の3桁に分割し,各3桁を明示的な大きさのマーカーで注釈する決定論的スキームであるTST(Tiadic Suffix Tokenization)を紹介する。
TST は接尾辞と整数部分の桁数の間の固定された 1 対 1 の写像を定義する。
1) 既存の語彙に少なくとも10,000の固定トークンを追加し、33桁のマグニチュード(10〜15ドルから1018ドル)をカバーした語彙ベースのアプローチと、(2) 特別なトークンの小さなセットを使って動的に大きさを示す接尾辞マーカアプローチである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard subword tokenization methods fragment numbers inconsistently, causing large language models (LLMs) to lose positional and decimal structure - a primary driver of errors in arithmetic and scientific reasoning. We introduce Triadic Suffix Tokenization (TST), a deterministic scheme that partitions digits into three-digit triads and annotates each triad with an explicit magnitude marker. Critically, the scheme defines a fixed, one-to-one mapping between suffixes and orders of magnitude for the integer part (thousands, millions, billions, etc.) and a parallel system of replicated markers for fractional depth (tenths, thousandths, millionths, etc.). Unlike approaches that rely on positional inference, this method provides a consistent gradient signal, which should ensure stable convergence. Two implementation variants are proposed: (1) a vocabulary-based approach that adds at most 10,000 fixed tokens to an existing vocabulary, covering 33 orders of magnitude ($10^{-15}$ to $10^{18}$); and (2) a suffix-marker approach that uses a small set of special tokens to denote magnitude dynamically. Both variants preserve exact digits while making order-of-magnitude relationships transparent at the token level. While we focus on 3-digit groups (Triadic), the framework is inherently scalable to any group size for precise vocabulary optimization. Furthermore, it allows for linear vocabulary expansion to accommodate arbitrary precision and range. TST is architecture-agnostic and can be integrated as a drop-in preprocessing step. Experimental validation is deferred to future work.
- Abstract(参考訳): 標準的なサブワードのトークン化手法ではフラグメント番号が矛盾し、大きな言語モデル(LLM)が位置構造と十進構造を失う。
本稿では,3桁を3桁の3桁に分割し,各3桁に明示的な大きさのマーカーを付加する決定論的スキームであるTST(Tiadic Suffix Tokenization)を導入する。
批判的に、このスキームは整数部分(千、百万、億等)の接尾辞と等級の階数の間の固定された1対1の写像と、分数深さ(十、千、百万等)の複写マーカーの並列系を定義する。
位置推定に依存するアプローチとは異なり、この手法は安定した収束を保証するために一貫した勾配信号を提供する。
1) 既存の語彙に少なくとも10,000の固定トークンを追加し、33桁の等級をカバーする語彙に基づくアプローチ(10^{-15}$から10^{18}$) と、(2) 特別なトークンの小さなセットを使って動的に等級を表す接尾辞マーカアプローチである。
両方の変種は、トークンレベルで秩序関係を透明化しながら、正確な桁を保存する。
3桁のグループ(Triadic)にフォーカスする一方で、このフレームワークは正確に語彙を最適化するために、本質的に任意のグループサイズにスケーラブルです。
さらに、線形語彙展開により任意の精度と範囲を許容できる。
TSTはアーキテクチャに依存しないため、ドロップイン前処理ステップとして統合することができる。
実験的な検証は将来の作業に延期される。
関連論文リスト
- Are you going to finish that? A Practical Study of the Partial Token Problem [85.49816027251013]
言語モデル(LM)はトークンのシーケンスによって訓練されるが、ユーザはテキストを介してLMと対話する。
このミスマッチは、ユーザーが期待する次のトークンの途中でプロンプトを終了したときに発生する部分トークン問題を引き起こす。
この研究では、トークンと"ワード"境界がしばしば並んでいない3つのドメインを特定します。
論文 参考訳(メタデータ) (2026-01-30T17:47:16Z) - Training Language Models with homotokens Leads to Delayed Overfitting [2.531076482407163]
サブワードトークン化は、多くの異なるトークンシーケンスが同じ表面形式にデコードされ、意味を保存する言語モデルにおける計算層を導入している。
我々は、データ拡張の厳密な意味保存形式として、ホモトケンを定式化する。
データ制約付き事前トレーニングでは、ホモトケン強化は繰り返しデータ露光下でのオーバーフィッティングを継続的に遅らせる。
多言語微調整では、ホモトケンの有効性はトークン化器の品質に依存する。
論文 参考訳(メタデータ) (2026-01-06T09:57:00Z) - DiffGRM: Diffusion-based Generative Recommendation Model [63.35379395455103]
ジェネレーティブレコメンデーション(GR)は、トークン化器を介して各項目をn桁のセマンティックID(SID)として表現する新興パラダイムである。
自己回帰デコーダをマスク付き離散拡散モデル(MDM)に置き換える拡散ベースGRモデルDiffGRMを提案する。
実験では、複数のデータセットに対する強力な生成的および差別的推奨ベースラインよりも一貫した利得を示す。
論文 参考訳(メタデータ) (2025-10-21T03:23:32Z) - Ambiguity-aware Point Cloud Segmentation by Adaptive Margin Contrastive Learning [65.94127546086156]
本稿では,ポイントクラウド上のセマンティックセマンティックセグメンテーションのための適応的マージン比較学習法を提案する。
まず,両立度推定フレームワークにコントラスト学習を組み込んだAMContrast3Dを設計する。
共同トレーニングの洞察に触発されて、並列にトレーニングされた2つのブランチとAMContrast3D++を統合することを提案する。
論文 参考訳(メタデータ) (2025-07-09T07:00:32Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。
このデフォルトの選択は一般的に、特に英語以外の言語において、効率と言語能力の低下をもたらす。
入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Provably Secure Disambiguating Neural Linguistic Steganography [66.30965740387047]
サブワードに基づく言語モデルを使用する際に生じるセグメンテーションの曖昧さ問題は、時にはデコード障害を引き起こす。
そこで我々はSyncPoolという,セグメンテーションのあいまいさ問題に効果的に対処する,セキュアな曖昧さ回避手法を提案する。
SyncPoolは、候補プールのサイズやトークンの分布を変えないため、確実に安全な言語ステガノグラフィー手法に適用できる。
論文 参考訳(メタデータ) (2024-03-26T09:25:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。