論文の概要: Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation
- arxiv url: http://arxiv.org/abs/2604.27263v1
- Date: Wed, 29 Apr 2026 23:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.837936
- Title: Decoupling the Benefits of Subword Tokenization for Language Model Training via Byte-level Simulation
- Title(参考訳): バイトレベルシミュレーションによる言語モデル学習におけるサブワードトークン化のメリットの分離
- Authors: Théo Gigant, Bowen Peng, Jeffrey Quesnelle,
- Abstract要約: 代名詞のトークン化は、現代の大規模言語モデル(LLM)の重要な部分である。
本研究では,制御されたバイトレベルの事前学習パイプライン内で,サブワードトークン化の効果を分離する。
- 参考スコア(独自算出の注目度): 6.240815206375064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword tokenization is an essential part of modern large language models (LLMs), yet its specific contributions to training efficiency and model performance remain poorly understood. In this work, we decouple the effects of subword tokenization by isolating them within a controlled byte-level pretraining pipeline. We formulate and test hypotheses across various dimensions, including sample throughput, vocabulary scaling, and the linguistic prior of subword boundaries. By simulating these effects in a byte-level setting, we refine our understanding of why subword models outperform raw byte models and offer insights to improve the pretraining of future byte-level and subword models. Specifically, our experiments highlight the critical role of increased training throughput and the integration of subword boundaries as either explicit priors or inductive biases.
- Abstract(参考訳): 代名詞のトークン化は、現代の大規模言語モデル(LLM)の重要な部分であるが、訓練効率とモデル性能への具体的な貢献は理解されていない。
本研究では,制御されたバイトレベルの事前学習パイプライン内で,サブワードトークン化の効果を分離する。
サンプルスループット,語彙スケーリング,サブワード境界の言語的先行など,さまざまな次元にわたる仮説を定式化し,検証する。
これらの効果をバイトレベル設定でシミュレートすることにより、サブワードモデルが生のバイトモデルより優れている理由の理解を深め、将来のバイトレベルおよびサブワードモデルの事前学習を改善するための洞察を提供する。
具体的には、トレーニングスループットの向上とサブワード境界の統合を、明示的な事前あるいは帰納的バイアスとして、重要な役割を強調します。
関連論文リスト
- Overcoming Vocabulary Constraints with Pixel-level Fallback [9.753745943931207]
代名詞のトークン化には、計算効率と語彙カバレッジのバランスが必要である。
画素として描画されたテキストから入力埋め込みを生成する語彙自由エンコーダを提案する。
論文 参考訳(メタデータ) (2025-04-02T20:50:31Z) - Scaling LLM Pre-training with Vocabulary Curriculum [0.0]
本稿では,語彙サイズに対して,対数線形スケーリングゲインによる事前学習効率を向上させる手法である語彙カリキュラム学習を導入する。
提案手法は,エントロピー誘導語彙拡張とモデル最適化を交互に行い,多様なトークン化粒度にまたがる変換可能な表現を学習する。
小規模GPTモデルによる実験により,スケーリング効率が向上し,動的トークン化の有効性が向上した。
論文 参考訳(メタデータ) (2025-02-25T07:18:29Z) - Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling [10.985444895887207]
本稿では,言語モデリング性能を向上させるために,入力語彙と出力語彙を分離するフレームワークであるOver-Tokenized Transformersを紹介する。
入力語彙サイズとトレーニング損失の関係を明らかにすることで,より大きな入力語彙がモデル性能を継続的に向上することを示す。
本研究は, スケーリング法則におけるトークン化の重要性を強調し, トークン化設計の実践的洞察を提供するものである。
論文 参考訳(メタデータ) (2025-01-28T14:15:42Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。