論文の概要: Language Models Without a Trainable Input Embedding Table: Learning from Fixed Minimal Binary Token Codes
- arxiv url: http://arxiv.org/abs/2605.09751v1
- Date: Sun, 10 May 2026 21:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.404346
- Title: Language Models Without a Trainable Input Embedding Table: Learning from Fixed Minimal Binary Token Codes
- Title(参考訳): トレーニング可能な入力埋め込みテーブルを持たない言語モデル:固定化された最小バイナリトークンコードから学ぶ
- Authors: A. Bochkov,
- Abstract要約: 通常のトレーニング可能な$Vtimes d_textmodel$ input Embedding matrixを最小限のバイナリトークンコードに置き換える。
また,トークンIDをオンザフライで生成する完全テーブルフリーの変種も評価した。
約17Bトークンでトレーニングされた32層デコーダのみのモデルにマッチする。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trainable input embedding tables are a standard component of modern language models. We ask whether they are actually necessary at the input interface. For a vocabulary of size $V$, exact token identity requires only $K=\lceil \log_2 V\rceil$ bits. We replace the usual trainable $V\times d_{\text{model}}$ input embedding matrix with fixed minimal binary token codes and a zero-parameter lift to model width. In our main setting, $V=65{,}536$, so $K=16$, and tokens are represented by fixed 16-dimensional binary codes tiled to $d_{\text{model}}=1024$. We also evaluate a fully table-free variant in which codes are generated from token IDs on the fly and randomly recoded by an invertible affine transform over $\mathbb{F}_2^K$. Across matched 32-layer decoder-only models trained on approximately 17B tokens and evaluated over three independent training seeds, fixed minimal codes achieve comparable held-out validation perplexity to a standard learned-input baseline while removing 67.1M trainable input parameters. The fixed-code runs have a lower mean validation perplexity in our experiments, 2.36 versus 2.44, but the observed gap is within the measured seed-to-seed variation of 4.8\%; we therefore interpret the result as evidence that the trainable input table is not necessary, rather than as a statistically resolved superiority claim. The table-free affine-recoded variant remains close at 2.39 despite a slightly shorter training run. These results show that, in this regime, a trainable input embedding table is not necessary for useful language modeling. The output projection remains standard and trainable.
- Abstract(参考訳): トレーニング可能な入力埋め込みテーブルは、現代の言語モデルの標準コンポーネントである。
入力インターフェースで実際に必要かどうかを問う。
サイズが$V$の語彙の場合、正確なトークンIDは$K=\lceil \log_2 V\rceil$ bitsしか必要としない。
通常のトレーニング可能な$V\times d_{\text{model}}$ input Embedding matrixを、固定された最小のバイナリトークンコードとモデル幅へのゼロパラメータリフトで置き換えます。
主な設定では、$V=65{,}536$, so $K=16$, and tokens are represented by fixed 16-dimensional binary codestiled to $d_{\text{model}}=1024$である。
また,トークンIDをオンザフライで生成し,$\mathbb{F}_2^K$上の非可逆アフィン変換によってランダムに復号する完全テーブルフリーな変種も評価した。
約17Bトークンでトレーニングされた32層デコーダのみのモデルと一致し、3つの独立したトレーニングシードで評価された。
固定コード実行は,実験では2.36対2.44で平均精度が低いが,観測されたギャップは4.8 %の範囲内であり,この結果が統計的に解決された優越性クレームではなく,トレーニング可能な入力テーブルが不要であることを示す証拠として解釈される。
テーブルフリーのアフィン・リコード型は、わずかに訓練が短いにもかかわらず2.39に近づいたままである。
これらの結果から,このシステムでは,有用な言語モデリングにはトレーニング可能な入力埋め込みテーブルは必要ないことが示唆された。
出力プロジェクションは標準であり、トレーニング可能である。
関連論文リスト
- Remask, Don't Replace: Token-to-Mask Refinement in Masked Diffusion Language Models [0.6916773850242582]
LLaDA2.1のような仮設拡散言語モデルは、自身の生成エラーを修正するためにToken-to-Token編集に依存している。
本稿では,その位置をマスク状態にリセットするToken-to-Mask(T2M)再マスクを提案する。
8つのベンチマークで、T2Mは正確なトークンレベルの出力を必要とするタスクの精度を改善する。
論文 参考訳(メタデータ) (2026-04-20T18:43:28Z) - Copy-as-Decode: Grammar-Constrained Parallel Prefill for LLM Editing [2.6382975801439836]
LLMは、入力中にほとんどのトークンが冗長に見える場合でも、全出力を自動回帰的に再生することでテキストとコードを編集する。
Copy-as-Decodeは、2プリミティブ文法上の構造化復号化として生成を再キャストする復号化機構である。
論文 参考訳(メタデータ) (2026-04-20T12:29:53Z) - Learning to Recall with Transformers Beyond Orthogonal Embeddings [42.18876773867171]
簡単なトークン検索タスクにおいて,勾配降下法で学習したランダム埋め込みを用いた変圧器を解析する。
我々の分析は、勾配降下の初期段階'を追跡分析し、モデル記憶容量の明示的な公式を導出する。
論文 参考訳(メタデータ) (2026-03-16T21:17:01Z) - On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。
1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。
これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文 参考訳(メタデータ) (2025-07-19T00:48:20Z) - Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。
正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文 参考訳(メタデータ) (2025-06-09T17:26:14Z) - Training Superior Sparse Autoencoders for Instruct Models [16.3663776969074]
そこで本研究では,インストラクションモデルに適した新しいトレーニング手法を提案する。
$textitFAST$は、トレーニングプロセスとインストラクションモデルの特徴的なデータ分散とアクティベーションパターンを調整します。
機能解釈可能性において、$textitFAST$は、Llama3.2-3B-Instructでは、$textitBT(P)$と$textitBT(F)$に対して$7.0%$と$10.2%$に対して、最高値で21.1%$である。
論文 参考訳(メタデータ) (2025-06-09T12:23:34Z) - FoNE: Precise Single-Token Number Embeddings via Fourier Features [51.17846016593835]
本稿では,数値をFourierの特徴を持つ埋め込み空間にマッピングする新しい手法を提案する。
FoNEは各数値を1桁に2つの埋め込み次元しか持たない単一のトークンとしてエンコードし、フラグメンテーションなしで数値を効果的にキャプチャする。
6桁の10進法では、FoNEはサブワードや桁の埋め込みよりも99%の精度を達成するために64$times$少ないデータを必要とする。
FoNEは、加算、減算、乗算の10万以上の試験例で100%精度を得る唯一の方法である。
論文 参考訳(メタデータ) (2025-02-13T19:54:59Z) - Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Compressing 1D Time-Channel Separable Convolutions using Sparse Random
Ternary Matrices [65.4388266814055]
1次元時間チャネル分離可能な畳み込みの1x1-畳み込みを、定数でスパースな乱数三元行列で-1,0,+1$の重みで置き換える。
Google Speech Commands v1のコマンド認識のために、最新の精度を同じネットワークサイズで97.21%$から97.41%$に改善します。
librispeech上での音声認識では、トレーニングすべき重みの数は半分になり、浮動小数点ベースラインの単語誤り率の約1%を犠牲にします。
論文 参考訳(メタデータ) (2021-03-31T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。