論文の概要: Zipf Distributions from Two-Stage Symbolic Processes: Stability Under Stochastic Lexical Filtering
- arxiv url: http://arxiv.org/abs/2511.21060v1
- Date: Wed, 26 Nov 2025 04:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.972617
- Title: Zipf Distributions from Two-Stage Symbolic Processes: Stability Under Stochastic Lexical Filtering
- Title(参考訳): 2段階シンボリックプロセスからのZipf分布:確率的語彙フィルタリング下での安定性
- Authors: Vladimir Berman,
- Abstract要約: 言語におけるZipfの法則は、分野によって議論される決定的な起源を欠いている。
本研究では,言語的要素を持たない幾何学的機構を用いてZipf様の振る舞いを説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zipf's law in language lacks a definitive origin, debated across fields. This study explains Zipf-like behavior using geometric mechanisms without linguistic elements. The Full Combinatorial Word Model (FCWM) forms words from a finite alphabet, generating a geometric distribution of word lengths. Interacting exponential forces yield a power-law rank-frequency curve, determined by alphabet size and blank symbol probability. Simulations support predictions, matching English, Russian, and mixed-genre data. The symbolic model suggests Zipf-type laws arise from geometric constraints, not communicative efficiency.
- Abstract(参考訳): 言語におけるZipfの法則は、分野によって議論される決定的な起源を欠いている。
本研究では,言語的要素を持たない幾何学的機構を用いてZipf様の振る舞いを説明する。
Full Combinatorial Word Model (FCWM) は有限アルファベットから単語を生成し、単語の長さの幾何学的分布を生成する。
相互作用する指数的な力は、アルファベットサイズと空白記号確率によって決定されるパワーローランク周波数曲線を生成する。
シミュレーションは予測をサポートし、英語、ロシア語、混合ジャンルのデータにマッチする。
記号モデルは、Zipf型法則は、通信効率ではなく、幾何学的制約から生じることを示唆している。
関連論文リスト
- On Counts and Densities of Homogeneous Bent Functions: An Evolutionary Approach [60.00535100780336]
本稿では, 等質屈曲ブール関数の進化における進化的アルゴリズム(EA)の利用について検討する。
等質な曲がり関数の密度の概念を導入し、異なる変数数の2次および3次曲がり関数を見つけるアルゴリズム設計を容易にする。
論文 参考訳(メタデータ) (2025-11-16T15:33:40Z) - Pre-trained Models Perform the Best When Token Distributions Follow Zipf's Law [15.78540876600952]
Zipfの法則を用いてトークンの周波数分布を分析し,語彙サイズを決定する手法を提案する。
ダウンストリームタスク性能は、トークン分布がいかにパワー-ローな振る舞いに追従するかと相関し、Zipfianスケーリングとの整合がモデル効率と有効性の両方を改善することを示す。
論文 参考訳(メタデータ) (2025-07-30T10:16:23Z) - On the class of coding optimality of human languages and the origins of Zipf's law [0.0]
コーディングシステムに最適な新しいクラスを提示する。
そのクラスの中で、Zipfの法則、サイズランク法則、サイズ確率法則は群のような構造を形成する。
Zipfの法則と十分な一致を示すすべての言語は、クラスのメンバーである可能性がある。
論文 参考訳(メタデータ) (2025-05-26T14:05:45Z) - Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。
実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。
Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T15:40:19Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。
トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。
本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文 参考訳(メタデータ) (2022-10-27T05:52:35Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - 3D Correspondence Grouping with Compatibility Features [51.869670613445685]
本稿では,3次元対応グルーピングのための簡易かつ効果的な手法を提案する。
目的は、局所幾何学的記述子を不整合と外接点にマッチングすることによって得られる初期対応を正確に分類することである。
本稿では,不整合と不整合を表わすために,互換性特徴(CF)と呼ばれる3次元対応の表現を提案する。
論文 参考訳(メタデータ) (2020-07-21T02:39:48Z) - The empirical structure of word frequency distributions [0.0]
私は、ほとんどの言語で、ファーストネームが自然なコミュニケーションの分布を形成することを示します。
このパターンは、英語の名詞と動詞のコミュニケーション的分布において複製されることを示す。
論文 参考訳(メタデータ) (2020-01-09T20:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。