Fugu-MT 論文翻訳(概要): Zipf Distributions from Two-Stage Symbolic Processes: Stability Under Stochastic Lexical Filtering

論文の概要: Zipf Distributions from Two-Stage Symbolic Processes: Stability Under Stochastic Lexical Filtering

arxiv url: http://arxiv.org/abs/2511.21060v1
Date: Wed, 26 Nov 2025 04:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-27 18:37:58.972617
Title: Zipf Distributions from Two-Stage Symbolic Processes: Stability Under Stochastic Lexical Filtering
Title（参考訳）: 2段階シンボリックプロセスからのZipf分布:確率的語彙フィルタリング下での安定性
Authors: Vladimir Berman,
Abstract要約: 言語におけるZipfの法則は、分野によって議論される決定的な起源を欠いている。本研究では,言語的要素を持たない幾何学的機構を用いてZipf様の振る舞いを説明する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Zipf's law in language lacks a definitive origin, debated across fields. This study explains Zipf-like behavior using geometric mechanisms without linguistic elements. The Full Combinatorial Word Model (FCWM) forms words from a finite alphabet, generating a geometric distribution of word lengths. Interacting exponential forces yield a power-law rank-frequency curve, determined by alphabet size and blank symbol probability. Simulations support predictions, matching English, Russian, and mixed-genre data. The symbolic model suggests Zipf-type laws arise from geometric constraints, not communicative efficiency.
Abstract（参考訳）: 言語におけるZipfの法則は、分野によって議論される決定的な起源を欠いている。本研究では,言語的要素を持たない幾何学的機構を用いてZipf様の振る舞いを説明する。 Full Combinatorial Word Model (FCWM) は有限アルファベットから単語を生成し、単語の長さの幾何学的分布を生成する。相互作用する指数的な力は、アルファベットサイズと空白記号確率によって決定されるパワーローランク周波数曲線を生成する。シミュレーションは予測をサポートし、英語、ロシア語、混合ジャンルのデータにマッチする。記号モデルは、Zipf型法則は、通信効率ではなく、幾何学的制約から生じることを示唆している。

関連論文リスト

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space [56.37266873329401]
大規模言語モデル (LLM) は、高度に一様でない情報密度を示す言語にもかかわらず、全てのトークンに一様計算を適用する。我々は,潜在表現から意味境界を学習し,トークンから推論がより効率的である圧縮概念空間へ移行する階層型言語モデリングフレームワークである$textbfDynamic Large Concept Models (DLCM)$を提案する。
論文参考訳（メタデータ） (2025-12-31T04:19:33Z)
The Morphemic Origin of Zipf's Law: A Factorized Combinatorial Framework [0.0]
形態素から単語が形成される方法に関する簡単な構造モデルを提案する。このモデルは、単語の長さの典型的な分布と、ランク周波数曲線のようなZipfの出現の2つの主要な経験的事実を説明する。
論文参考訳（メタデータ） (2025-12-13T16:58:06Z)
On Counts and Densities of Homogeneous Bent Functions: An Evolutionary Approach [60.00535100780336]
本稿では, 等質屈曲ブール関数の進化における進化的アルゴリズム(EA)の利用について検討する。等質な曲がり関数の密度の概念を導入し、異なる変数数の2次および3次曲がり関数を見つけるアルゴリズム設計を容易にする。
論文参考訳（メタデータ） (2025-11-16T15:33:40Z)
Random Text, Zipf's Law, Critical Length,and Implications for Large Language Models [0.0]
我々は、故意に単純で完全に非言語的なテキストモデルについて研究する。単語は、非空間シンボルの最大ブロックとして定義される。
論文参考訳（メタデータ） (2025-11-14T23:05:59Z)
Pre-trained Models Perform the Best When Token Distributions Follow Zipf's Law [15.78540876600952]
Zipfの法則を用いてトークンの周波数分布を分析し,語彙サイズを決定する手法を提案する。ダウンストリームタスク性能は、トークン分布がいかにパワー-ローな振る舞いに追従するかと相関し、Zipfianスケーリングとの整合がモデル効率と有効性の両方を改善することを示す。
論文参考訳（メタデータ） (2025-07-30T10:16:23Z)
On the class of coding optimality of human languages and the origins of Zipf's law [0.0]
コーディングシステムに最適な新しいクラスを提示する。そのクラスの中で、Zipfの法則、サイズランク法則、サイズ確率法則は群のような構造を形成する。 Zipfの法則と十分な一致を示すすべての言語は、クラスのメンバーである可能性がある。
論文参考訳（メタデータ） (2025-05-26T14:05:45Z)
Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。 Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-11-01T15:40:19Z)
Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文参考訳（メタデータ） (2023-05-24T19:10:46Z)
Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文参考訳（メタデータ） (2022-10-27T05:52:35Z)
Generalized Funnelling: Ensemble Learning and Heterogeneous Document Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。 Emph Generalized Funnelling (gFun) はFunの一般化である。 gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2021-09-17T23:33:04Z)
More Than Words: Collocation Tokenization for Latent Dirichlet Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文参考訳（メタデータ） (2021-08-24T14:08:19Z)
3D Correspondence Grouping with Compatibility Features [51.869670613445685]
本稿では,3次元対応グルーピングのための簡易かつ効果的な手法を提案する。目的は、局所幾何学的記述子を不整合と外接点にマッチングすることによって得られる初期対応を正確に分類することである。本稿では,不整合と不整合を表わすために,互換性特徴(CF)と呼ばれる3次元対応の表現を提案する。
論文参考訳（メタデータ） (2020-07-21T02:39:48Z)
Rethinking Positional Encoding in Language Pre-training [111.2320727291926]
絶対的な位置符号化では、位置埋め込みと単語埋め込みに適用される付加操作が混合相関をもたらすことを示す。我々はtextbfUntied textPositional textbfEncoding (T) を用いた textbfTransformer という新しい位置符号化手法を提案する。
論文参考訳（メタデータ） (2020-06-28T13:11:02Z)
The empirical structure of word frequency distributions [0.0]
私は、ほとんどの言語で、ファーストネームが自然なコミュニケーションの分布を形成することを示します。このパターンは、英語の名詞と動詞のコミュニケーション的分布において複製されることを示す。
論文参考訳（メタデータ） (2020-01-09T20:52:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。