論文の概要: Random Text, Zipf's Law, Critical Length,and Implications for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.17575v1
- Date: Fri, 14 Nov 2025 23:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.295219
- Title: Random Text, Zipf's Law, Critical Length,and Implications for Large Language Models
- Title(参考訳): ランダムテキスト,Zipfの法則,臨界長,および大規模言語モデルへの含意
- Authors: Vladimir Berman,
- Abstract要約: 我々は、故意に単純で完全に非言語的なテキストモデルについて研究する。
単語は、非空間シンボルの最大ブロックとして定義される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a deliberately simple, fully non-linguistic model of text: a sequence of independent draws from a finite alphabet of letters plus a single space symbol. A word is defined as a maximal block of non-space symbols. Within this symbol-level framework, which assumes no morphology, syntax, or semantics, we derive several structural results. First, word lengths follow a geometric distribution governed solely by the probability of the space symbol. Second, the expected number of words of a given length, and the expected number of distinct words of that length, admit closed-form expressions based on a coupon-collector argument. This yields a critical word length k* at which word types transition from appearing many times on average to appearing at most once. Third, combining the exponential growth of the number of possible strings of length k with the exponential decay of the probability of each string, we obtain a Zipf-type rank-frequency law p(r) proportional to r^{-alpha}, with an exponent determined explicitly by the alphabet size and the space probability. Our contribution is twofold. Mathematically, we give a unified derivation linking word lengths, vocabulary growth, critical length, and rank-frequency structure in a single explicit model. Conceptually, we argue that this provides a structurally grounded null model for both natural-language word statistics and token statistics in large language models. The results show that Zipf-like patterns can arise purely from combinatorics and segmentation, without optimization principles or linguistic organization, and help clarify which phenomena require deeper explanation beyond random-text structure.
- Abstract(参考訳): 我々は、文字の有限アルファベットと1つの空間記号から独立して描画する、故意に単純で完全に非言語的なテキストモデルについて研究する。
単語は、非空間シンボルの最大ブロックとして定義される。
このシンボルレベルのフレームワークでは、形態学、構文、意味論を前提とせず、いくつかの構造的な結果が導出されます。
まず、単語の長さは空間記号の確率のみに支配される幾何学的分布に従う。
第二に、所定の長さの単語の期待数、その長さの異なる単語の期待数、クーポン・コレクタの議論に基づくクローズドフォーム表現を認める。
これにより、単語タイプが平均的に何回も現れるから、最大で1回現れるという臨界語長k*が得られる。
第3に、長さ k の可能な文字列数の指数関数的増加と各文字列の確率の指数関数的減衰を組み合わせ、r^{-alpha} に比例するZipf型ランク周波数法則 p(r) とアルファベットサイズと空間確率によって明示的に決定される指数を求める。
私たちの貢献は2倍です。
数学的には, 単語長, 語彙成長, 臨界長, ランク周波数構造を1つの明示的モデルで結合する統一的な導出を与える。
概念的には、これは、自然言語の単語統計と大規模言語モデルにおけるトークン統計の両方に対して、構造的に基盤付けられたヌルモデルを提供する、と論じる。
その結果、Zipfのようなパターンは、最適化原則や言語組織を使わずに、コンビネータやセグメンテーションから純粋に発生しうることを示し、ランダムテキスト構造を超えて、どの現象が深い説明を必要とするかを明らかにするのに役立つ。
関連論文リスト
- Zipf Distributions from Two-Stage Symbolic Processes: Stability Under Stochastic Lexical Filtering [0.0]
言語におけるZipfの法則は、分野によって議論される決定的な起源を欠いている。
本研究では,言語的要素を持たない幾何学的機構を用いてZipf様の振る舞いを説明する。
論文 参考訳(メタデータ) (2025-11-26T04:59:40Z) - Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。
トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。
特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文 参考訳(メタデータ) (2025-06-03T17:59:47Z) - Critical Thinking: Which Kinds of Complexity Govern Optimal Reasoning Length? [72.70486097967124]
決定論的有限オートマトン(DFAs)を用いたフレームワークの定式化
正しい解を生成する確率が最大になるような推論トークンが最適に存在することを示す。
新たな問題に対する推論トークンの最適個数を予測し、最適でない回答をフィルタリングすることで、一貫した精度の向上が得られる。
論文 参考訳(メタデータ) (2025-04-02T17:45:58Z) - Leading Whitespaces of Language Models' Subword Vocabulary Pose a Confound for Calculating Word Probabilities [15.073507986272027]
我々は、単語の確率を単語の確率に集約する最も一般的な方法によって生じる欠点を論じる。
これは、ほとんどの言語モデルのサブワード語彙のトークンが主要な空白を持つという事実による。
後続する白色空間の確率を現在の単語の確率に再計算する簡単な復号法を提案する。
論文 参考訳(メタデータ) (2024-06-16T08:44:56Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Linear-Time Modeling of Linguistic Structure: An Order-Theoretic
Perspective [97.57162770792182]
文字列内のトークンのペア間の関係をモデル化するタスクは、自然言語を理解する上で不可欠な部分である。
これらの徹底的な比較は避けられ、さらに、トークン間の関係を文字列上の部分順序としてキャストすることで、複雑さを線形に減らすことができる。
提案手法は,文字列中の各トークンの実際の数を並列に予測し,それに従ってトークンをソートすることで,文字列内のトークンの総順序を決定する。
論文 参考訳(メタデータ) (2023-05-24T11:47:35Z) - A Measure-Theoretic Characterization of Tight Language Models [105.16477132329416]
病理学的には「確率質量」が無限列の集合に漏れることがある。
本稿では,言語モデリングの尺度論的扱いについて述べる。
多くのポピュラーな言語モデルファミリーが実際に密接な関係にあることを証明しています。
論文 参考訳(メタデータ) (2022-12-20T18:17:11Z) - The distribution of syntactic dependency distances [0.13812010983144798]
我々は,構文的依存距離の実際の分布のキャラクタリゼーションに寄与する。
ブレークポイント後に確率減衰が変化することを許容する2つの指数的状態を持つ新しいモデルを提案する。
文の長さやアノテーションのスタイルとは無関係に,20言語すべてにおいて,2段階のモデルが最も可能性の高いモデルであることが判明した。
論文 参考訳(メタデータ) (2022-11-26T17:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。