論文の概要: Training Language Models with homotokens Leads to Delayed Overfitting
- arxiv url: http://arxiv.org/abs/2601.02867v1
- Date: Tue, 06 Jan 2026 09:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.876404
- Title: Training Language Models with homotokens Leads to Delayed Overfitting
- Title(参考訳): ホモトケンを用いた学習言語モデルが遅延オーバーフィッティングに繋がる
- Authors: Adrian Cosma, Stefan Ruseti, Emilian Radoi, Mihai Dascalu,
- Abstract要約: サブワードトークン化は、多くの異なるトークンシーケンスが同じ表面形式にデコードされ、意味を保存する言語モデルにおける計算層を導入している。
我々は、データ拡張の厳密な意味保存形式として、ホモトケンを定式化する。
データ制約付き事前トレーニングでは、ホモトケン強化は繰り返しデータ露光下でのオーバーフィッティングを継続的に遅らせる。
多言語微調整では、ホモトケンの有効性はトークン化器の品質に依存する。
- 参考スコア(独自算出の注目度): 2.531076482407163
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Subword tokenization introduces a computational layer in language models where many distinct token sequences decode to the same surface form and preserve meaning, yet induce different internal computations. Despite this non-uniqueness, language models are typically trained using a single canonical longest-prefix tokenization. We formalize homotokens-alternative valid subword segmentations of the same lexical item-as a strictly meaning-preserving form of data augmentation. We introduce a lightweight training architecture that conditions canonical next-token prediction on sampled homotoken variants via an auxiliary causal encoder and block-causal cross-attention, without modifying the training objective or token interface. In data-constrained pretraining, homotoken augmentation consistently delays overfitting under repeated data exposure and improves generalization across diverse evaluation datasets. In multilingual fine-tuning, we find that the effectiveness of homotokens depends on tokenizer quality: gains are strongest when canonical tokens are highly compressed and diminish when the tokenizer already over-fragments the input. Overall, homotokens provide a simple and modular mechanism for inducing tokenization invariance in language models.
- Abstract(参考訳): サブワードトークン化は、多くの異なるトークンシーケンスが同じ表面にデコードされ、意味を保ちながら異なる内部計算を誘導する言語モデルにおける計算層を導入している。
この非特異性にもかかわらず、言語モデルは典型的には単一の標準長のプリフィックストークン化を使用して訓練される。
我々は、データ拡張の厳密な意味保存形式として、同じ語彙項目のホモトケンス代替有効サブワードセグメンテーションを定式化する。
トレーニング対象やトークンインターフェースを変更することなく、補助因果エンコーダとブロック-因果相互アテンションを介して、サンプルホモトケン変種に対する正準次トーケン予測を条件付ける軽量なトレーニングアーキテクチャを提案する。
データ制約付き事前トレーニングでは、ホモトケン拡張は繰り返しデータ露光下で過度に適合するのを一貫して遅らせ、さまざまな評価データセットの一般化を改善する。
多言語微調整において、ホモトケンの有効性はトークンの質に依存することが判明した: トークンが高度に圧縮され、トークンが既に入力をオーバーフレームしているときにゲインが最強となる。
全体として、ホモトケンは言語モデルにおけるトークン化不変性を誘導するためのシンプルでモジュラーなメカニズムを提供する。
関連論文リスト
- Lossless Vocabulary Reduction for Auto-Regressive Language Models [21.015330660860865]
トークンと呼ばれるサブワードのシーケンスに所定のテキストを分解するプロセスであるトークン化は、言語モデルの開発において重要なコンポーネントの1つである。
我々は、与えられた自己回帰言語モデルを任意に小さな語彙を持つ言語に変換する、損失のない語彙還元の理論的枠組みを確立する。
アプリケーションとして、異なるトークン化を持つ言語モデルが、最大共通語彙によって互いに効率的に協調できることを実証する。
論文 参考訳(メタデータ) (2025-10-09T11:38:48Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。
正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文 参考訳(メタデータ) (2025-06-09T17:26:14Z) - Canonical Autoregressive Generation [17.065618029171766]
大規模言語モデルが必ずしも標準トークンシーケンスを生成するとは限らないことを示す。
非正準トークン列の生成を阻害する簡易かつ効率的なサンプリング手法であるカノニカルサンプリングを導入する。
論文 参考訳(メタデータ) (2025-06-06T18:09:10Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。