論文の概要: A path to natural language through tokenisation and transformers
- arxiv url: http://arxiv.org/abs/2601.03368v1
- Date: Tue, 06 Jan 2026 19:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.06409
- Title: A path to natural language through tokenisation and transformers
- Title(参考訳): トークン化とトランスフォーマーによる自然言語への道
- Authors: David S. Berman, Alexander G. Stapleton,
- Abstract要約: バイトペア符号化(BPE)がコーパス統計をどのように変換するかを検討する。
BPEは、経験的エントロピーの特徴的な成長パターンを誘導しながら、トークン周波数をジプシアン電力法則に向けて駆動する。
我々は、様々なBPE深さでトークン化されたコーパス上で言語モデルを訓練し、モデル予測エントロピーがZipf由来の予測とますます一致していることを明らかにする。
- 参考スコア(独自算出の注目度): 46.05021068704905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural languages exhibit striking regularities in their statistical structure, including notably the emergence of Zipf's and Heaps' laws. Despite this, it remains broadly unclear how these properties relate to the modern tokenisation schemes used in contemporary transformer models. In this note, we analyse the information content (as measured by the Shannon entropy) of various corpora under the assumption of a Zipfian frequency distribution, and derive a closed-form expression for the slot entropy expectation value. We then empirically investigate how byte--pair encoding (BPE) transforms corpus statistics, showing that recursive applications of BPE drive token frequencies toward a Zipfian power law while inducing a characteristic growth pattern in empirical entropy. Utilizing the ability of transformers to learn context dependent token probability distributions, we train language models on corpora tokenised at varying BPE depths, revealing that the model predictive entropies increasingly agree with Zipf-derived predictions as the BPE depth increases. Attention-based diagnostics further indicate that deeper tokenisation reduces local token dependencies, bringing the empirical distribution closer to the weakly dependent (near IID) regime. Together, these results clarify how BPE acts not only as a compression mechanism but also as a statistical transform that reconstructs key informational properties of natural language.
- Abstract(参考訳): 自然言語はその統計構造において顕著な規則性を示し、特にZipfやHeapsの法則が出現した。
しかし、これらの性質が現代の変圧器モデルで使用される近代的なトークン化スキームとどのように関係しているかは、広くは分かっていない。
本稿では,各コーパスの情報内容(シャノンエントロピーの測定値)をZipfianの周波数分布を仮定して解析し,スロットエントロピー期待値のクローズドフォーム式を導出する。
次に,BPE がコーパス統計をどう変換するかを実証的に検討し,経験的エントロピーの特徴的な成長パターンを誘導しながら,BPE のトークン周波数の再帰的適用がZipfian のパワー法則にもたらすことを示す。
コンテクスト依存のトークン確率分布を学習するトランスフォーマーの能力を利用して、様々なBPE深さでトークン化されたコーパス上で言語モデルを訓練し、BPE深度が増加するにつれて、モデル予測エントロピーがZipf由来の予測とますます一致していることを明らかにする。
注意に基づく診断は、より深いトークン化によって局所的なトークン依存が減少し、経験的分布が弱い(IIDに近い)体制に近づくことを示している。
これらの結果は、BPEが圧縮機構としてだけでなく、自然言語の重要な情報特性を再構築する統計変換としても機能することを示す。
関連論文リスト
- Entropy-Driven Pre-Tokenization for Byte-Pair Encoding [4.145560327709288]
2つのエントロピーインフォームドプレトークン化戦略は、教師なし情報理論を用いたBPEセグメンテーションを導く。
両手法をPKUデータセットのサブセット上で評価し,通常のBPEと比較して,セグメンテーション精度,リコール,F1スコアが大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-06-18T21:25:55Z) - Entropy-Lens: The Information Signature of Transformer Computations [14.613982627206884]
語彙空間におけるトークンレベルの分布の進化を直接研究する。
我々は,各中間予測分布のシャノンエントロピーを計算し,各層に1つの解釈可能なスカラーを与える。
本稿では, 既成の冷凍変圧器からエントロピープロファイルを抽出するモデルに依存しないフレームワークであるEntropy-Lensを紹介する。
論文 参考訳(メタデータ) (2025-02-23T13:33:27Z) - Structural Entropy Guided Probabilistic Coding [52.01765333755793]
構造エントロピー誘導型確率的符号化モデルSEPCを提案する。
我々は、構造エントロピー正規化損失を提案することにより、潜在変数間の関係を最適化に組み込む。
分類タスクと回帰タスクの両方を含む12の自然言語理解タスクに対する実験結果は、SEPCの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-12T00:37:53Z) - Reconsidering Degeneration of Token Embeddings with Definitions for Encoder-based Pre-trained Language Models [20.107727903240065]
本研究では,エンコーダに基づく言語モデルのための等方的および意味論的トークン埋め込みを再構築するために,DefindEMBを提案する。
本実験は,Wiktionaryの定義を応用し,そのような埋め込みを再構築する効果を実証する。
論文 参考訳(メタデータ) (2024-08-02T15:00:05Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。