論文の概要: Kronecker Embeddings: Byte-Level Structured Token Representations for Parameter-Efficient Language Models
- arxiv url: http://arxiv.org/abs/2605.29459v1
- Date: Thu, 28 May 2026 06:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.870542
- Title: Kronecker Embeddings: Byte-Level Structured Token Representations for Parameter-Efficient Language Models
- Title(参考訳): Kronecker Embeddings:パラメータ効率の良い言語モデルのためのバイトレベル構造化トークン表現
- Authors: Rohan Shravan,
- Abstract要約: 大規模言語モデルは、学習された埋め込みテーブルを通じて全ての入力をルーティングする。
我々はKronecker Embeddingsを紹介した。
入力側のトレーニング可能なパラメータの91~94%をフロンティアスケールで除去する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models route every input through a learned embedding table of shape |V| x d_model, consuming hundreds of millions to billions of trainable parameters at frontier scale. We introduce Kronecker Embeddings, a deterministic byte-level character-position factorization that replaces this table with a fixed encoder and a single learned projection, compatible with standard BPE tokenizers, eliminating 91--94% of input-side trainable parameters at frontier scale. We provide five contributions. First, a cross-model probe across six LMs (135M-671B parameters) shows trained input embeddings cluster typographic variants of the probe word far more than morphological relatives; Kronecker escapes this clustering at the embedding layer. Second, a controlled three-seed comparison on nanoGPT GPT-2 124M over 2.5B tokens of FineWeb-Edu shows Kronecker reaching 2.5 +- 0.2% lower validation loss than the BPE-tied baseline (gap 0.083 +- 0.007 nats, ~9% lower perplexity), needing ~1.43x fewer steps to reach BPE's converged loss. Third, a spelling-robustness probe over 110 clean/typo pairs shows Kronecker preserves the top-1 prediction on 55.5% of pairs vs. 47.3% for BPE (+8.2 pp) and lowers KL by 7.6%, winning or tying in 10 of 11 categories; a generation probe shows Kronecker echoes byte-novel strings and typos through generation where BPE forgets them. Fourth, BPE embedding norm drifts during training while Kronecker projection norm stays near 1.0, consistent with a stable representational target. Fifth, an on-the-fly runtime variant reconstructs embeddings from a 4.5 MB byte buffer rather than a 2.15 GB table at vocabulary 131,072, with 0.01--0.24% step-time overhead. Byte-level locality has a tradeoff: byte-similar but semantically distant pairs (compute/commute, nation/notion) cluster together, shifting disambiguation to early attention layers.
- Abstract(参考訳): 大規模言語モデルは、学習された埋め込みテーブル |V| x d_model を介して全ての入力をルートし、フロンティアスケールで数十億から数十億のトレーニング可能なパラメータを消費する。
Kronecker Embeddingsは、このテーブルを固定エンコーダと単一の学習プロジェクションで置き換え、標準的なBPEトークン化と互換性があり、フロンティアスケールでの入力側トレーニング可能なパラメータの91-94%を排除します。
コントリビューションは5つです。
第一に、6つのLM(135M-671Bパラメータ)にまたがるクロスモデルプローブは、モーフィジカルな近縁者よりもはるかに多い、入力単語のクラスタタイポグラフィー変異を訓練された入力埋め込みを示し、Kroneckerはこのクラスタリングを埋め込み層に逃がした。
第二に、NanoGPT GPT-2 124Mの2.5Bトークンに対する制御された3シード比較では、KroneckerはBPE基線(gap 0.083 +- 0.007 nats, ~9%低いパープレキシティ)よりも2.5+-02%低いバリデーション損失を示し、BPEの収束損失に到達するには約1.43倍のステップを必要とする。
第3に、110個のクリーン/ティポ対上のスペル・ローバストネスプローブは、Kroneckerが55.5%対BPE(+8.2pp)のペアの47.3%でトップ1の予測を保ち、KLを7.6%下げ、11のカテゴリのうち10のカテゴリで勝利またはタイイングすることを示している。
第4に、訓練中にBPE埋め込みノルムがドリフトし、一方Kroneckerプロジェクションノルムは1.0近くにとどまり、安定した表現目標と一致している。
第5に、オンザフライランタイムの派生型は、2.15GBのテーブルではなく4.5MBのバイトバッファから、0.01-0.24%のステップタイムオーバーヘッドで埋め込みを再構築する。
バイトレベルの局所性にはトレードオフがある。バイト類似だがセマンティックに離れたペア(コンシュート/コミュート、国/ノート)を一緒にクラスタ化し、曖昧さを早期の注意層にシフトする。
関連論文リスト
- ATLAS: All-round Testing of Long-context Abilities across Scales [42.83200405769639]
ATLASは、長文評価を長さ依存の能力プロファイルとして再定義するベンチマークフレームワークである。
ATLASは、(i)アプリケーションワークロードから基礎的な操作を分離する階層化された分類法、(ii)固定された8K-1Mグリッド上のスコア長曲線を統合するAUCスコア、(iii)不均衡なプロファイルをペナルライズする分類カテゴリー上の調和平均集計であるATLAScoreの3つの方法論に貢献する。
論文 参考訳(メタデータ) (2026-05-27T07:33:47Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - In-Context Fixation: When Demonstrated Labels Override Semantics in Few-Shot Classification [4.738949927143789]
その結果, 同種ラベルは意味論的に有効なものであっても, 6つのモデルで12%の精度で崩壊することがわかった。
モデルはラベル位置を占めるトークンを、徹底的な回答語彙として扱う。
論文 参考訳(メタデータ) (2026-05-08T10:20:39Z) - Compute Optimal Tokenization [79.3815358070537]
圧縮速度によって制御されるトークンの情報粒度がスケーリングの傾向にどのように影響するかを検討する。
所望の圧縮速度の設定を可能にする50Mから7Bパラメータまで,988の潜在トークン化モデル(BLT)を訓練する。
実験の結果, モデルパラメータは, 一般に認識されるトークンではなく, バイト単位のデータサイズに比例してスケールすることがわかった。
論文 参考訳(メタデータ) (2026-05-02T01:53:22Z) - Lightweight Distillation of SAM 3 and DINOv3 for Edge-Deployable Individual-Level Livestock Monitoring and Longitudinal Visual Analytics [0.3609538870261841]
個別レベルの家畜モニタリングのための基礎モデルパイプラインは、精度の高い家畜栽培の精度を高める。
しかし、GPUメモリの予算は、コモディティエッジアクセラレーターのエンベロープを超えている。
このギャップを埋めるため、SAM 3のバックボーンは40.66Mスケールのマルチスケールの学生に蒸留される。
このパイプラインは9級豚の行動分類において97.34%の精度で91.67%のマクロF1を達成している。
論文 参考訳(メタデータ) (2026-04-29T19:25:22Z) - Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT [0.0]
トランスフォーマーベースの言語モデルは、NLPタスク間で強力なパフォーマンスを実現するが、その2次パラメータスケーリングは、リソース制約のあるハードウェアへのデプロイを高くする。
変圧器の原理圧縮法として行列積演算子分解について検討する。
MPOは、重み行列を低ランクコアの鎖に分解し、近似品質は結合次元chiによって制御される。
論文 参考訳(メタデータ) (2026-03-30T14:57:47Z) - PLUME: Building a Network-Native Foundation Model for Wireless Traces via Protocol-Aware Tokenization [0.9558392439655014]
Plumeは、構造化PDML切断から学ぶ802.11トレースのコンパクト基盤モデルである。
プロトコル対応トークン化器は、ディセクタフィールドツリーに沿って分割し、タイミングのギャップトークンを出力し、識別子を正規化し、BPEよりも6.2倍短いシーケンスを生成する。
論文 参考訳(メタデータ) (2026-03-13T23:14:43Z) - Significance-Gain Pair Encoding for LLMs: A Statistical Alternative to Frequency-Based Subword Merging [0.0]
Significance-Gain BPE は、独立型ヌルモデルの下でz統計による凝集を測定する代替マージ基準である。
検証とテストの難易度をそれぞれ13%、テストの難易度を12%削減し、検証とテストのBPCを0.9~1.0%改善する。
論文 参考訳(メタデータ) (2026-02-26T20:29:18Z) - Near, far: Patch-ordering enhances vision foundation models' scene understanding [35.768260232640756]
NeCo: Patch Neighbor Consistencyは、学生と教師のモデル全体で、パッチレベルの隣り合う一貫性を強制します。
学習信号のブートストラップには,DINOv2-Registerなどの事前訓練された表現の上に適用した微分可能なソートを利用する。
この厳密な事前トレーニングは、単一のGPUで19時間しか必要とせず、さまざまなモデルやデータセットでパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-08-20T17:58:59Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。