論文の概要: Direct and indirect evidence of compression of word lengths. Zipf's law
of abbreviation revisited
- arxiv url: http://arxiv.org/abs/2303.10128v2
- Date: Sat, 27 May 2023 08:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 01:09:26.184961
- Title: Direct and indirect evidence of compression of word lengths. Zipf's law
of abbreviation revisited
- Title(参考訳): 単語長の圧縮の直接的および間接的証拠。
Zipfの省略法則の再検討
- Authors: Sonia Petrini, Antoni Casas-i-Mu\~noz, Jordi Cluet-i-Martinell,
Mengxue Wang, Chris Bentz and Ramon Ferrer-i-Cancho
- Abstract要約: Zipfの省略法則は、より頻繁な単語が短くなる傾向にあり、言語普遍の最も堅固な候補の1つである。
特に14の言語族に属する46の言語において、この法が音声(単語の長さが時間で測定されている場合)にも当てはまるという証拠を提供する。
圧縮の直接的証拠の必要性から,単語の長さが体系的に低いことを示すランダムベースラインの簡単な公式を導出する。
- 参考スコア(独自算出の注目度): 0.4893345190925177
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Zipf's law of abbreviation, the tendency of more frequent words to be
shorter, is one of the most solid candidates for a linguistic universal, in the
sense that it has the potential for being exceptionless or with a number of
exceptions that is vanishingly small compared to the number of languages on
Earth. Since Zipf's pioneering research, this law has been viewed as a
manifestation of a universal principle of communication, i.e. the minimization
of word lengths, to reduce the effort of communication. Here we revisit the
concordance of written language with the law of abbreviation. Crucially, we
provide wider evidence that the law holds also in speech (when word length is
measured in time), in particular in 46 languages from 14 linguistic families.
Agreement with the law of abbreviation provides indirect evidence of
compression of languages via the theoretical argument that the law of
abbreviation is a prediction of optimal coding. Motivated by the need of direct
evidence of compression, we derive a simple formula for a random baseline
indicating that word lengths are systematically below chance, across linguistic
families and writing systems, and independently of the unit of measurement
(length in characters or duration in time). Our work paves the way to measure
and compare the degree of optimality of word lengths in languages.
- Abstract(参考訳): Zipfの省略法則(英語版)は、より頻繁な単語が短くなる傾向にあり、例外なく、あるいは地球上の言語の数に比べて圧倒的に小さい例外があるという意味で、言語普遍の最も堅固な候補の1つである。
Zipfの先駆的な研究以来、この法則は、コミュニケーションの労力を減らすために、コミュニケーションの普遍的な原則、すなわち単語長の最小化の現れと見なされてきた。
ここでは、文語と略語の法則の一致を再検討する。
特に,14の言語族に属する46の言語において,この法が音声(単語の長さが経時的に測定されている場合)にも当てはまるというより広い証拠を提供する。
省略法則との合意は、省略法則が最適符号化の予測であるという理論的議論を通じて、言語圧縮の間接的な証拠を提供する。
圧縮の直接的な証拠の必要性から,単語の長さが言語系や書記系にまたがって体系的に低いこと,また測定単位(文字の長さや時間長)とは独立に,ランダムなベースラインの単純な公式を導出する。
我々の研究は、言語における単語長の最適度を測り、比較する方法である。
関連論文リスト
- Speech perception: a model of word recognition [0.0]
本稿では,音の相関効果を考慮した音声認識モデルを提案する。
このモデルの単語は、好適に選択された降下ダイナミクスの引力に対応する。
誤聴の有無で短い単語と長い単語を復号する方法について検討する。
論文 参考訳(メタデータ) (2024-10-24T09:41:47Z) - Work Smarter...Not Harder: Efficient Minimization of Dependency Length in SOV Languages [0.34530027457862006]
主動詞の横にある短い前動詞構成詞の移動は、SOV言語における依存関係長の国際最小化よりも、前動詞構成詞の順序決定が優れていることを説明できる。
この研究は、言語決定と言語進化における有界合理性の役割に光を当てている。
論文 参考訳(メタデータ) (2024-04-29T13:30:27Z) - Syntactic Language Change in English and German: Metrics, Parsers, and Convergences [56.47832275431858]
本論文は,過去160年間の議会討論のコーパスを用いて,英語とドイツ語の統語的言語変化のダイアクロニックな傾向を考察する。
私たちは、広く使われているStanford Coreと、新しい4つの選択肢を含む5つの依存関係をベースとしています。
文長分布の尾部では,構文的尺度の変化が頻繁であることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-18T11:46:16Z) - Revisiting the Optimality of Word Lengths [92.70590105707639]
通信コストは、さまざまな方法で運用できる。
Zipf (1935) は、単語形式は発話のコミュニケーションコストを最小限に抑えるために最適化されていると仮定した。
論文 参考訳(メタデータ) (2023-12-06T20:41:47Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - A Cross-Linguistic Pressure for Uniform Information Density in Word
Order [79.54362557462359]
実数列が反実数列よりも大きな情報均一性をもたらすかどうかを計算モデルを用いて検証する。
SVO言語の中では、実語順は逆語順よりも一様である。
言語的に不可解な反実順序のみが、実際の順序の均一性を超えている。
論文 参考訳(メタデータ) (2023-06-06T14:52:15Z) - A bounded rationality account of dependency length minimization in Hindi [0.0]
DependenCY LENGTH MINIMIZATIONの原理は、効果的なコミュニケーションのために人間の言語の構造を形成すると考えられている。
典型的には、長短成分と後短長成分の配置は、文全体の依存長を最小にすることが知られている。
本研究では,ヒンディー語における単語順の嗜好について,主動詞の横に最短助詞のみを置くという仮説を検証した。
論文 参考訳(メタデータ) (2023-04-22T13:53:50Z) - The optimality of word lengths. Theoretical foundations and an empirical
study [0.7682551949752529]
Zipfの省略法則は圧縮の徴候と見なされている。
言語における単語長の最適度を初めて定量化する。
一般に、単語の長さは文字で書かれた単語の長さよりも最適化されている。
論文 参考訳(メタデータ) (2022-08-22T15:03:31Z) - Dependency distance minimization predicts compression [1.2944868613449219]
依存性距離最小化(DDm)は、単語順序の確立された原理である。
これは、原理と他の原理とを結び付けるためであり、一階予測のように原則と宣言を結び付けるためである。
最近導入されたスコアは、広く使われている依存性距離の和に関して、数学的、統計的に多くの利点がある。
論文 参考訳(メタデータ) (2021-09-18T10:53:39Z) - Disambiguatory Signals are Stronger in Word-initial Positions [48.18148856974974]
単語の初期と後期のセグメントの情報を比較するための既存の手法の相違点を指摘する。
何百もの言語にまたがって、言葉で情報を読み込むという言語横断的な傾向があるという証拠が見つかりました。
論文 参考訳(メタデータ) (2021-02-03T18:19:16Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。