論文の概要: Dependency distance minimization predicts compression
- arxiv url: http://arxiv.org/abs/2109.08900v1
- Date: Sat, 18 Sep 2021 10:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:23:52.957289
- Title: Dependency distance minimization predicts compression
- Title(参考訳): 依存距離最小化は圧縮を予測する
- Authors: Ramon Ferrer-i-Cancho and Carlos G\'omez-Rodr\'iguez
- Abstract要約: 依存性距離最小化(DDm)は、単語順序の確立された原理である。
これは、原理と他の原理とを結び付けるためであり、一階予測のように原則と宣言を結び付けるためである。
最近導入されたスコアは、広く使われている依存性距離の和に関して、数学的、統計的に多くの利点がある。
- 参考スコア(独自算出の注目度): 1.2944868613449219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dependency distance minimization (DDm) is a well-established principle of
word order. It has been predicted theoretically that DDm implies compression,
namely the minimization of word lengths. This is a second order prediction
because it links a principle with another principle, rather than a principle
and a manifestation as in a first order prediction. Here we test that second
order prediction with a parallel collection of treebanks controlling for
annotation style with Universal Dependencies and Surface-Syntactic Universal
Dependencies. To test it, we use a recently introduced score that has many
mathematical and statistical advantages with respect to the widely used sum of
dependency distances. We find that the prediction is confirmed by the new score
when word lengths are measured in phonemes, independently of the annotation
style, but not when word lengths are measured in syllables. In contrast, one of
the most widely used scores, i.e. the sum of dependency distances, fails to
confirm that prediction, showing the weakness of raw dependency distances for
research on word order. Finally, our findings expand the theory of natural
communication by linking two distinct levels of organization, namely syntax
(word order) and word internal structure.
- Abstract(参考訳): 依存距離最小化(ddm)は語順の確立された原則である。
DDmは圧縮,すなわち単語長の最小化を意味すると理論的に予測されている。
これは二階予測であり、一階予測のように原理と表現ではなく、原理と他の原理を関連付けている。
ここでは,Universal Dependencies と Surface-Syntactic Universal Dependencies によるアノテーションスタイルを制御するツリーバンクの並列コレクションによる2次予測をテストする。
それをテストするために、最近導入されたスコアは、広く使われる依存距離の和に対して、多くの数学的、統計的利点を持っている。
単語長を音素で測定した場合,アノテーションスタイルとは無関係に,単語長を音節で測定した場合に,新たなスコアで予測が確認された。
対照的に、最も広く使われているスコアの1つ、すなわち依存距離の和は、その予測の確認に失敗し、単語順の研究に生の依存距離の弱さを示す。
最後に,構文(単語順)と単語内部構造という2つの異なるレベルの組織をリンクすることで,自然コミュニケーションの理論を拡張した。
関連論文リスト
- Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - The optimal placement of the head in the noun phrase. The case of demonstrative, numeral, adjective and noun [0.16317061277456998]
言語において好まれる順序によって、名詞は終わりの1つに置かれる傾向があることを示す。
我々はまた、アンチローカリティ効果の証拠も示している: 望ましい順序における構文依存は、偶然に予想されるよりも長い。
論文 参考訳(メタデータ) (2024-02-15T20:24:39Z) - Revisiting the Optimality of Word Lengths [92.70590105707639]
通信コストは、さまざまな方法で運用できる。
Zipf (1935) は、単語形式は発話のコミュニケーションコストを最小限に抑えるために最適化されていると仮定した。
論文 参考訳(メタデータ) (2023-12-06T20:41:47Z) - Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文 参考訳(メタデータ) (2023-07-07T15:37:50Z) - A bounded rationality account of dependency length minimization in Hindi [0.0]
DependenCY LENGTH MINIMIZATIONの原理は、効果的なコミュニケーションのために人間の言語の構造を形成すると考えられている。
典型的には、長短成分と後短長成分の配置は、文全体の依存長を最小にすることが知られている。
本研究では,ヒンディー語における単語順の嗜好について,主動詞の横に最短助詞のみを置くという仮説を検証した。
論文 参考訳(メタデータ) (2023-04-22T13:53:50Z) - Direct and indirect evidence of compression of word lengths. Zipf's law
of abbreviation revisited [0.4893345190925177]
Zipfの省略法則は、より頻繁な単語が短くなる傾向にあり、言語普遍の最も堅固な候補の1つである。
特に14の言語族に属する46の言語において、この法が音声(単語の長さが時間で測定されている場合)にも当てはまるという証拠を提供する。
圧縮の直接的証拠の必要性から,単語の長さが体系的に低いことを示すランダムベースラインの簡単な公式を導出する。
論文 参考訳(メタデータ) (2023-03-17T17:12:18Z) - The distribution of syntactic dependency distances [0.7614628596146599]
我々は,構文的依存距離の実際の分布のキャラクタリゼーションに寄与する。
ブレークポイント後の確率の減衰を許容する新しい二重指数モデルを提案する。
2つの登録モデルが、私たちが検討した20言語の中で、最も可能性の高いモデルであることが分かりました。
論文 参考訳(メタデータ) (2022-11-26T17:31:25Z) - The expected sum of edge lengths in planar linearizations of trees.
Theory and applications [0.16317061277456998]
平面配置における期待和と射影配置における期待和の関係を示す。
エッジ長の和の期待値を計算するために,$O(n)$-timeアルゴリズムを導出する。
本研究は, 並列コーパスに適用し, 依存関係構造に対する公式制約の強度が増大するにつれて, 実際の依存性距離とランダムベースラインとのギャップが減少することを示した。
論文 参考訳(メタデータ) (2022-07-12T14:35:07Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Linguistic dependencies and statistical dependence [76.89273585568084]
文脈における単語の確率を推定するために,事前学習した言語モデルを用いる。
最大CPMI木は非文脈PMI推定値から抽出した木よりも言語的依存関係によく対応していることがわかった。
論文 参考訳(メタデータ) (2021-04-18T02:43:37Z) - NLP-CIC @ DIACR-Ita: POS and Neighbor Based Distributional Models for
Lexical Semantic Change in Diachronic Italian Corpora [62.997667081978825]
本稿では,イタリア語に対する教師なし語彙意味変化のシステムと知見について述べる。
その課題は、対象の単語が時間とともにその意味を進化させたかどうかを判断することであり、それは2つの時間固有のデータセットからの原文のみに依存する。
本研究では,各期間に対象単語を表す2つのモデルを提案し,しきい値と投票方式を用いて変化単語を予測する。
論文 参考訳(メタデータ) (2020-11-07T11:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。