論文の概要: Large language models and the entropy of English
- arxiv url: http://arxiv.org/abs/2512.24969v1
- Date: Wed, 31 Dec 2025 16:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.715803
- Title: Large language models and the entropy of English
- Title(参考訳): 大規模言語モデルと英語のエントロピー
- Authors: Colin Scheibner, Lindsay M. Smith, William Bialek,
- Abstract要約: 我々は、様々な情報源から英語テキストの長い範囲の構造を明らかにするために、大きな言語モデルを使用します。
多くの場合、条件付きエントロピーやコード長は、コンテキスト長が少なくとも$Nsim 104$キャラクタに減少し続ける。
長い文脈長と短い文脈長で異なるダイナミクスを観察し、長距離構造が徐々に学習されることを示唆する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We use large language models (LLMs) to uncover long-ranged structure in English texts from a variety of sources. The conditional entropy or code length in many cases continues to decrease with context length at least to $N\sim 10^4$ characters, implying that there are direct dependencies or interactions across these distances. A corollary is that there are small but significant correlations between characters at these separations, as we show from the data independent of models. The distribution of code lengths reveals an emergent certainty about an increasing fraction of characters at large $N$. Over the course of model training, we observe different dynamics at long and short context lengths, suggesting that long-ranged structure is learned only gradually. Our results constrain efforts to build statistical physics models of LLMs or language itself.
- Abstract(参考訳): 言語モデル(LLM)を用いて、様々な情報源から英文の長範囲構造を探索する。
多くの場合、条件付きエントロピーやコード長は、コンテキスト長が少なくとも$N\sim 10^4$の文字に減少し続けており、これらの距離に直接的な依存や相互作用が存在することを意味する。
結論は、モデルに依存しないデータから示されるように、これらの分離には文字間には小さいが有意な相関関係があるということである。
コード長の分布は、大きな$N$で文字数の増加に関する創発的な確実性を示す。
モデル学習の過程で, 長期的, 短期的に異なる力学を観察し, 長期的構造が徐々に学習されることを示唆した。
この結果は,LLMや言語自体の統計物理モデルを構築するための努力を制約している。
関連論文リスト
- Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels [3.537369004801589]
Too Long, Didn't Modelベンチマークをリリースしました。
プロットサマリー、ストーリーワールド構成、経過したストーリータイムを報告するモデルの能力をテストする。
テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
論文 参考訳(メタデータ) (2025-05-20T21:21:09Z) - What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。