論文の概要: The Morphemic Origin of Zipf's Law: A Factorized Combinatorial Framework
- arxiv url: http://arxiv.org/abs/2512.12394v1
- Date: Sat, 13 Dec 2025 16:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.243765
- Title: The Morphemic Origin of Zipf's Law: A Factorized Combinatorial Framework
- Title(参考訳): Zipfの法則のモルフェミックな起源: 因子化されたコンビネーションの枠組み
- Authors: Vladimir Berman,
- Abstract要約: 形態素から単語が形成される方法に関する簡単な構造モデルを提案する。
このモデルは、単語の長さの典型的な分布と、ランク周波数曲線のようなZipfの出現の2つの主要な経験的事実を説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple structure based model of how words are formed from morphemes. The model explains two major empirical facts: the typical distribution of word lengths and the appearance of Zipf like rank frequency curves. In contrast to classical explanations based on random text or communication efficiency, our approach uses only the combinatorial organization of prefixes, roots, suffixes and inflections. In this Morphemic Combinatorial Word Model, a word is created by activating several positional slots. Each slot turns on with a certain probability and selects one morpheme from its inventory. Morphemes are treated as stable building blocks that regularly appear in word formation and have characteristic positions. This mechanism produces realistic word length patterns with a concentrated middle zone and a thin long tail, closely matching real languages. Simulations with synthetic morpheme inventories also generate rank frequency curves with Zipf like exponents around 1.1-1.4, similar to English, Russian and Romance languages. The key result is that Zipf like behavior can emerge without meaning, communication pressure or optimization principles. The internal structure of morphology alone, combined with probabilistic activation of slots, is sufficient to create the robust statistical patterns observed across languages.
- Abstract(参考訳): 形態素から単語が形成される方法に関する簡単な構造モデルを提案する。
このモデルは、単語の長さの典型的な分布と、ランク周波数曲線のようなZipfの出現の2つの主要な経験的事実を説明する。
ランダムテキストやコミュニケーション効率に基づく古典的な説明とは対照的に,我々のアプローチでは,接頭辞,根,接尾辞,屈折の組合せ構造のみを用いる。
このMorphemic Combinatorial Word Modelでは、単語は複数の位置スロットを活性化することによって生成される。
各スロットは一定の確率でオンになり、その在庫から1つの形態素を選択する。
形態素は、単語形成に定期的に現れ、特徴的位置を持つ安定した建物ブロックとして扱われる。
このメカニズムは、中央の集中領域と細長い尾を持つ現実的な単語長パターンを生成し、実際の言語と密接に一致する。
合成形態素インベントリによるシミュレーションは、英語、ロシア語、ロマンス語と同様、1.1-1.4の指数のようにZipfでランク周波数曲線を生成する。
その結果、Zipfのような振る舞いは、意味やコミュニケーションのプレッシャー、最適化の原則を使わずに現れます。
形態学の内部構造は、スロットの確率的活性化と相まって、言語全体で観察される頑健な統計パターンを作るのに十分である。
関連論文リスト
- Zipf Distributions from Two-Stage Symbolic Processes: Stability Under Stochastic Lexical Filtering [0.0]
言語におけるZipfの法則は、分野によって議論される決定的な起源を欠いている。
本研究では,言語的要素を持たない幾何学的機構を用いてZipf様の振る舞いを説明する。
論文 参考訳(メタデータ) (2025-11-26T04:59:40Z) - Random Text, Zipf's Law, Critical Length,and Implications for Large Language Models [0.0]
我々は、故意に単純で完全に非言語的なテキストモデルについて研究する。
単語は、非空間シンボルの最大ブロックとして定義される。
論文 参考訳(メタデータ) (2025-11-14T23:05:59Z) - Vocabulary embeddings organize linguistic structure early in language model training [3.2661767443292646]
大規模言語モデル(LLM)は、入力埋め込みベクトルの幾何を複数の層で操作することで機能する。
ここでは、言語モデルの入力語彙表現がどのように構造化され、この構造はトレーニング中にどのように進化しますか?
入力埋め込みの幾何学的構造と2つのオープンソースモデルの出力埋め込みを、セマンティック、構文、周波数ベースのメトリクスで関連付ける一連の実験を行った。
論文 参考訳(メタデータ) (2025-10-08T23:26:22Z) - Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。
実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。
Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T15:40:19Z) - Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Probabilistic Transformer: A Probabilistic Dependency Model for
Contextual Word Representation [52.270712965271656]
本稿では,文脈表現の新しいモデルを提案する。
モデルのグラフは変換器に似ており、依存関係と自己意識の対応性がある。
実験により,本モデルが小型・中型データセットのトランスフォーマーと競合することを示す。
論文 参考訳(メタデータ) (2023-11-26T06:56:02Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - The empirical structure of word frequency distributions [0.0]
私は、ほとんどの言語で、ファーストネームが自然なコミュニケーションの分布を形成することを示します。
このパターンは、英語の名詞と動詞のコミュニケーション的分布において複製されることを示す。
論文 参考訳(メタデータ) (2020-01-09T20:52:38Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。