論文の概要: The empirical structure of word frequency distributions
- arxiv url: http://arxiv.org/abs/2001.05292v1
- Date: Thu, 9 Jan 2020 20:52:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:47:16.993141
- Title: The empirical structure of word frequency distributions
- Title(参考訳): 単語頻度分布の実証的構造
- Authors: Michael Ramscar
- Abstract要約: 私は、ほとんどの言語で、ファーストネームが自然なコミュニケーションの分布を形成することを示します。
このパターンは、英語の名詞と動詞のコミュニケーション的分布において複製されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The frequencies at which individual words occur across languages follow power
law distributions, a pattern of findings known as Zipf's law. A vast literature
argues over whether this serves to optimize the efficiency of human
communication, however this claim is necessarily post hoc, and it has been
suggested that Zipf's law may in fact describe mixtures of other distributions.
From this perspective, recent findings that Sinosphere first (family) names are
geometrically distributed are notable, because this is actually consistent with
information theoretic predictions regarding optimal coding. First names form
natural communicative distributions in most languages, and I show that when
analyzed in relation to the communities in which they are used, first name
distributions across a diverse set of languages are both geometric and,
historically, remarkably similar, with power law distributions only emerging
when empirical distributions are aggregated. I then show this pattern of
findings replicates in communicative distributions of English nouns and verbs.
These results indicate that if lexical distributions support efficient
communication, they do so because their functional structures directly satisfy
the constraints described by information theory, and not because of Zipf's law.
Understanding the function of these information structures is likely to be key
to explaining humankind's remarkable communicative capacities.
- Abstract(参考訳): 言語間で個々の単語が現れる頻度は、zipfの法則として知られる発見パターンであるパワーロー分布に従う。
膨大な文献が、これが人間のコミュニケーションの効率を最適化するのに役立つかどうかを論じているが、この主張は必ずしもポストホックであり、ジップの法則が実際には他の分布の混合物を表現している可能性が示唆されている。
この観点から、シノスフィアファースト(ファミリー)の名称が幾何学的に分布しているという最近の知見は、最適なコーディングに関する情報理論的な予測と実際に一致しているため注目に値する。
多くの言語でファーストネームが自然のコミュニケーション的分布を形成しており、それらが使われているコミュニティに関して分析すると、様々な言語にまたがるファーストネームの分布は幾何学的であり、歴史的には非常に類似しており、経験的分布が集約されたときにのみパワーローの分布が現れる。
このパターンは、英語の名詞と動詞のコミュニケーション的分布において複製される。
これらの結果は、語彙分布が効率的な通信をサポートするならば、それらの機能構造が情報理論によって記述される制約を直接満たしているためであり、zipfの法則のためではないことを示している。
これらの情報構造の機能を理解することは、人類の顕著なコミュニケーション能力を説明する鍵となる。
関連論文リスト
- Zipfian Whitening [7.927385005964994]
埋め込み空間の対称性をモデル化、修正、測定するためのほとんどのアプローチは、単語の周波数が一様であることを暗黙的に仮定する。
実際、単語頻度はZipfの法則として知られる非常に一様でない分布に従う。
Zipfの法則に従う経験的単語頻度によって重み付けされたPCA白化を行うことでタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-11-01T15:40:19Z) - Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文 参考訳(メタデータ) (2023-07-07T15:37:50Z) - A Cross-Linguistic Pressure for Uniform Information Density in Word
Order [79.54362557462359]
実数列が反実数列よりも大きな情報均一性をもたらすかどうかを計算モデルを用いて検証する。
SVO言語の中では、実語順は逆語順よりも一様である。
言語的に不可解な反実順序のみが、実際の順序の均一性を超えている。
論文 参考訳(メタデータ) (2023-06-06T14:52:15Z) - A Latent Space Theory for Emergent Abilities in Large Language Models [5.033924641692716]
言語はランダムに生成されるのではなく、情報を伝えることが示される。
言語とその根底にある意味の強い関係は、疎結合の分布をもたらす。
ビッグデータと大規模モデルに基づいて訓練されたLLMの出現により、言語の境界分布を正確に評価できるようになった。
論文 参考訳(メタデータ) (2023-04-19T20:45:01Z) - Diffusion Models are Minimax Optimal Distribution Estimators [49.47503258639454]
拡散モデリングの近似と一般化能力について、初めて厳密な分析を行った。
実密度関数がベソフ空間に属し、経験値整合損失が適切に最小化されている場合、生成したデータ分布は、ほぼ最小の最適推定値が得られることを示す。
論文 参考訳(メタデータ) (2023-03-03T11:31:55Z) - Norm of Word Embedding Encodes Information Gain [7.934452214142754]
静的単語埋め込みの2乗ノルムは,単語が伝達する情報ゲインを符号化することを示す。
また、KLの発散と埋め込みの2乗ノルムの両方が、単語の有意性を示す有用な指標であることを示した。
論文 参考訳(メタデータ) (2022-12-19T17:45:07Z) - Pragmatic Constraint on Distributional Semantics [6.091096843566857]
Zipf-lawトークン分布は,選択したトークン化に関係なく出現することを示す。
Zipfの分布は2つの異なるトークン群によって特徴づけられ、その頻度と意味の両面で異なることを示す。
論文 参考訳(メタデータ) (2022-11-20T17:51:06Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - On the Sentence Embeddings from Pre-trained Language Models [78.45172445684126]
本稿では,BERT埋め込みにおける意味情報が完全に活用されていないことを論じる。
BERTは常に文の非滑らかな異方性意味空間を誘導し,その意味的類似性を損なう。
本稿では,非教師対象で学習した正規化フローにより,異方性文の埋め込み分布を滑らかで等方性ガウス分布に変換することを提案する。
論文 参考訳(メタデータ) (2020-11-02T13:14:57Z) - Re-evaluating phoneme frequencies [0.0]
音素周波数を特徴付けるために要求される分布を再評価する。
初期の結果を裏付ける証拠は見つかっていますが、それらをナンシングし、理解を深めています。
音素変化において音素物質が重要な役割を担っているにもかかわらず、非常に多様な音素コンテンツを持つ在庫が、同様の音素周波数の分布を共有することを期待できる理由を、我々は明らかにしている。
論文 参考訳(メタデータ) (2020-06-09T12:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。