論文の概要: Quadratic Term Correction on Heaps' Law
- arxiv url: http://arxiv.org/abs/2511.14683v1
- Date: Tue, 18 Nov 2025 17:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.229321
- Title: Quadratic Term Correction on Heaps' Law
- Title(参考訳): ヒープの法則に関する二次的項補正
- Authors: Oscar Fontanelli, Wentian Li,
- Abstract要約: Heaps または Herdan の法則は、ワードタイプ対ワードトケンの関係を、権力-法則関数によって特徴づける。
ログ-ログスケールにおいても、型トーケン曲線はいまだわずかに凹凸であり、パワー-ロー関係は無効である。
- 参考スコア(独自算出の注目度): 0.15469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Heaps' or Herdan's law characterizes the word-type vs. word-token relation by a power-law function, which is concave in linear-linear scale but a straight line in log-log scale. However, it has been observed that even in log-log scale, the type-token curve is still slightly concave, invalidating the power-law relation. At the next-order approximation, we have shown, by twenty English novels or writings (some are translated from another language to English), that quadratic functions in log-log scale fit the type-token data perfectly. Regression analyses of log(type)-log(token) data with both a linear and quadratic term consistently lead to a linear coefficient of slightly larger than 1, and a quadratic coefficient around -0.02. Using the ``random drawing colored ball from the bag with replacement" model, we have shown that the curvature of the log-log scale is identical to a ``pseudo-variance" which is negative. Although a pseudo-variance calculation may encounter numeric instability when the number of tokens is large, due to the large values of pseudo-weights, this formalism provides a rough estimation of the curvature when the number of tokens is small.
- Abstract(参考訳): Heaps' あるいは Herdan' の法則は、線形線形スケールでは凹凸だがログスケールでは直線であるパワーロー関数によって、ワードタイプ対ワードトーケンの関係を特徴づける。
しかし、ログログスケールにおいても、型トーケン曲線はいまだわずかに凹凸であり、パワー-ロー関係は無効である。
次階近似では、20の英語の小説や著作物(一部は他言語から英語に翻訳されている)によって、ログログスケールの二次関数が型付きデータに完全に適合していることが示されている。
線形項と二次項の両方を持つlog(type)-log(token)データの回帰解析は、一貫して1よりわずかに大きい線形係数と約0.02の二次係数をもたらす。
袋から着色ボールを取り替えた'ランダムドローイング'モデルを用いて,ログスケールの曲率が負の‘擬似分散’と同一であることを示してきた。
擬似分散計算は、トークンの数が大きければ数値不安定になるが、擬似重みの値が大きいため、この定式化はトークンの数が小さければ曲率を大まかに見積もる。
関連論文リスト
- On the Entropy Calibration of Language Models [52.47557449370603]
本研究では,言語モデルのエントロピーが人間のテキスト上でのログ損失と一致しているかを問うエントロピーキャリブレーションの問題について検討する。
観測されたスケーリングの挙動は、単純化された設定によって予測されるものと類似していることがわかった。
将来的なテキストのエントロピーを予測するために,モデルに適合するブラックボックスへのアクセスを前提にすれば,それが可能であることが証明できる。
論文 参考訳(メタデータ) (2025-11-15T00:33:03Z) - Scaling Laws for Gradient Descent and Sign Descent for Linear Bigram Models under Zipf's Law [4.6193503399184275]
最近の研究は、トランスフォーマーベースの言語モデルの最初の層と最後の層を訓練する際の勾配降下による困難を浮き彫りにした。
これらの研究は、テキストデータ中の単語の重み付き分布に、難易度が関係していることを示唆している。
データが重い尾を持つ場合、問題はより困難であることを示す。
論文 参考訳(メタデータ) (2025-05-25T16:43:51Z) - Rate-reliability tradeoff for deterministic identification [49.126395046088014]
正の指数に対して線形スケーリングが復元され、信頼指数の関数であるレートが復元される。
また、2つの誤差のうち1つしか指数関数的に小さくならないとしても、線形対称性のスケーリングは失われることを示す。
論文 参考訳(メタデータ) (2025-02-04T15:09:14Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Analyzing Deviations of Dyadic Lines in Fast Hough Transform [0.0]
本論文は, ダイアディック線が理想的な線から逸脱することの統計的解析に対処する。
n$が増加するにつれて、これらの偏差の分布は、平均がゼロでばらつきが小さい正規分布へと収束する。
論文 参考訳(メタデータ) (2023-11-16T18:00:38Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - Efficient Truncated Linear Regression with Unknown Noise Variance [26.870279729431328]
雑音のばらつきが不明な場合に, 線形回帰の計算的, 統計的に効率的な推定器を提案する。
提案手法は, トランキャット標本の負の類似度に対して, プロジェクテッド・グラディエント・ディフレッシュを効果的に実装することに基づく。
論文 参考訳(メタデータ) (2022-08-25T12:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。