論文の概要: Corrections of Zipf's and Heaps' Laws Derived from Hapax Rate Models
- arxiv url: http://arxiv.org/abs/2307.12896v2
- Date: Tue, 25 Jul 2023 09:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:42:35.053827
- Title: Corrections of Zipf's and Heaps' Laws Derived from Hapax Rate Models
- Title(参考訳): ハパックス速度モデルによるZipf法則とヒープ法則の補正
- Authors: {\L}ukasz D\k{e}bowski
- Abstract要約: 本稿では,ハファックス率の体系的モデルに基づくZipf法則とHeaps法則の修正を紹介する。
このロジスティックモデルが最も適していることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The article introduces corrections to Zipf's and Heaps' laws based on
systematic models of the hapax rate. The derivation rests on two assumptions:
The first one is the standard urn model which predicts that marginal frequency
distributions for shorter texts look as if word tokens were sampled blindly
from a given longer text. The second assumption posits that the rate of hapaxes
is a simple function of the text size. Four such functions are discussed: the
constant model, the Davis model, the linear model, and the logistic model. It
is shown that the logistic model yields the best fit.
- Abstract(参考訳): 本稿では,ハファックス率の体系モデルに基づくZipf法則とHeaps法則の修正を紹介する。
1つは標準urnモデルで、短いテキストの限界周波数分布は、与えられた長いテキストから単語トークンが盲目的にサンプリングされたかのように見えると予測する。
第2の仮定は、ハプクスの割合はテキストサイズの単純な関数であると仮定する。
定数モデル、デービスモデル、線型モデル、ロジスティックモデルという4つの関数が議論されている。
このロジスティックモデルが最も適していることが示されている。
関連論文リスト
- Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。
実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。
Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T15:40:19Z) - Simple stochastic processes behind Menzerath's Law [0.0]
本稿では、メンゼロス法則(メンゼロス・アルトマン法とも呼ばれる)を再検討し、言語構成物の長さと構成物の平均の長さの関係をモデル化する。
近年の研究では、既存のモデルは実世界のデータを正確に反映していないが、単純なプロセスでメンセラート的な振る舞いを表現できることが示されている。
論文 参考訳(メタデータ) (2024-08-30T22:20:50Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - You Only Forward Once: Prediction and Rationalization in A Single
Forward Pass [10.998983921416533]
教師なしの合理性抽出は、合理性のないモデル予測をサポートするために、簡潔で連続的なテキストスニペットを抽出することを目的としている。
これまでの研究では、RNP(Rationalizing Neural Prediction)フレームワークと呼ばれる2段階のフレームワークを使用してきた。
そこで我々は,論理学の緩和版から派生した,単相一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一元一
論文 参考訳(メタデータ) (2023-11-04T08:04:28Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - A Gamma-Poisson Mixture Topic Model for Short Text [0.0]
ほとんどのトピックモデルは、文書が多項分布に従うという仮定のもとに構築される。
トピックモデリングでは、ポアソン分布は一定長さの文書中の単語の発生回数を記述する。
文学における数少ないPoissonトピックモデルは、アドミクチャーモデルであり、ドキュメントがトピックの混合から生成されると仮定する。
論文 参考訳(メタデータ) (2020-04-23T21:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。