論文の概要: You Can Learn Tokenization End-to-End with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.13940v1
- Date: Sun, 15 Feb 2026 00:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.57174
- Title: You Can Learn Tokenization End-to-End with Reinforcement Learning
- Title(参考訳): 強化学習で tokenization end-to-End を学習できる
- Authors: Sam Dauncey, Roger Wattenhofer,
- Abstract要約: トークン化は、LLM(Large Language Models)のトレーニングパイプラインに残る、ハードコード圧縮ステップである。
これらのトークン境界は、より厳密な理論的保証を持つスコア関数推定を用いて学習可能であることを示す。
提案手法は, 定性的, 定量的に, 従来提案されていたストレートスルー推定よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 34.662213518530315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is a hardcoded compression step which remains in the training pipeline of Large Language Models (LLMs), despite a general trend towards architectures becoming increasingly end-to-end. Prior work has shown promising results at scale in bringing this compression step inside the LLMs' architecture with heuristics to draw token boundaries, and also attempts to learn these token boundaries with straight-through estimates, which treat the problem of drawing discrete token boundaries as a continuous one. We show that these token boundaries can instead be learned using score function estimates, which have tighter theoretical guarantees due to directly optimizing the problem of drawing discrete token boundaries to minimize loss. We observe that techniques from reinforcement learning, such as time discounting, are necessary to reduce the variance of this score function sufficiently to make it practicable. We demonstrate that the resultant method outperforms prior proposed straight-through estimates, both qualitatively and quantitatively at the $100$ million parameter scale.
- Abstract(参考訳): トークン化(Tokenization)は、大規模言語モデル(LLM)のトレーニングパイプラインに留まるハードコード圧縮ステップである。
以前の研究は、トークン境界を描画するヒューリスティックな手法でLLMのアーキテクチャ内にこの圧縮ステップを組み込むという有望な結果を示しており、また、離散トークン境界を連続的に描画する問題を扱うストレートスルー推定を用いてこれらのトークン境界を学習しようと試みている。
これらのトークン境界は、損失を最小限に抑えるために離散トークン境界を描画する問題を直接最適化するため、より厳密な理論的保証を持つスコア関数推定を用いて学習可能であることを示す。
時間割引などの強化学習の手法は,このスコア関数のばらつきを十分に低減し,実践可能なものにするために必要である。
提案手法は,1億ドルのパラメータスケールで定性的かつ定量的に,従来提案していたストレートスルー推定よりも優れていることを示す。
関連論文リスト
- Accordion-Thinking: Self-Regulated Step Summaries for Efficient and Readable LLM Reasoning [62.680551162054975]
我々はLLMが動的要約によって推論ステップの粒度を自己制御することを学ぶエンドツーエンドのフレームワークを紹介した。
高い効率のFoldモードと徹底的なUnfoldモードの精度ギャップを徐々に狭めていくという重要な知見を見出し,この能力をさらにインセンティブ化するために強化学習を適用した。
私たちのAccordion-Thinkerは、学習した自己圧縮により、LLMは依存性トークンのオーバーヘッドを最小限に抑えながら複雑な推論タスクに取り組むことができることを示した。
論文 参考訳(メタデータ) (2026-02-03T08:34:20Z) - SOMBRERO: Measuring and Steering Boundary Placement in End-to-End Hierarchical Sequence Models [10.547898683606569]
本稿では,境界品質のルータに依存しない境界エンリッチメントBを導入する。
本研究では,信頼度調整境界損失による予測困難に対する学習を推し進め,信頼オフと精度重み付き貿易平滑化を適用して学習を安定化させるSombreroを提案する。
論文 参考訳(メタデータ) (2026-01-30T10:34:07Z) - Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models [16.540220733551823]
VLM(Large Vision-Language Models)は、強力なマルチモーダル推論を実現するが、冗長な視覚トークンから重い推論コストを発生させる。
注意に基づく手法は、しばしばレイヤやヘッド間で不安定な生の注意スコアに依存する。
簡単な直感に基づいて構築されたトレーニング不要のフレームワークとして,我々の提案する。
論文 参考訳(メタデータ) (2025-09-29T14:20:05Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Primal Dual Continual Learning: Balancing Stability and Plasticity through Adaptive Memory Allocation [86.8475564814154]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
両変数は,制約摂動に対する連続学習問題の最適値の感度を示す。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - Certified Robustness via Dynamic Margin Maximization and Improved Lipschitz Regularization [40.2635560771494]
我々は、弱い方向に沿ってモデルのリプシッツ定数を規則化しながら、出力(ロジット)空間のマージンを増大させる頑健なトレーニングアルゴリズムを開発する。
境界の相対的精度は過剰な正規化を防ぎ、決定境界をより直接的に操作することができる。
MNIST, CIFAR-10 および Tiny-ImageNet データセットを用いた実験により,提案アルゴリズムが最先端技術と比較して競争力に向上した結果が得られることを確認した。
論文 参考訳(メタデータ) (2023-09-29T20:07:02Z) - Uncertainty quantification for learned ISTA [5.706217259840463]
これらのモデルに基づく学習手法では,アルゴリズムの解法が顕著である。
確実性見積が欠如しており、不確実性定量化の理論はまだ解明されていない。
本研究は,LISTA推定器の信頼区間を得るための厳密な手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T18:39:07Z) - Exact Asymptotics for Linear Quadratic Adaptive Control [6.287145010885044]
最も単純な非帯域強化学習問題である線形二次制御(LQAC)について検討する。
ステップワイズ更新LQACアルゴリズムの残差,推定誤差,予測誤差の式を導出する。
安定系と不安定系のシミュレーションにおいて、我々の理論はアルゴリズムの有限サンプル挙動を著しくよく記述している。
論文 参考訳(メタデータ) (2020-11-02T22:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。