論文の概要: Universality and diversity in word patterns
- arxiv url: http://arxiv.org/abs/2208.11175v1
- Date: Tue, 23 Aug 2022 20:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:10:02.414680
- Title: Universality and diversity in word patterns
- Title(参考訳): 単語パターンの普遍性と多様性
- Authors: David Sanchez and Luciano Zunino and Juan De Gregorio and Raul Toral
and Claudio Mirasso
- Abstract要約: 本稿では,11言語を対象とした語彙統計関係の分析を行う。
言語が単語関係を表現するために利用する多種多様な方法が、ユニークなパターン分布を生み出していることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Words are fundamental linguistic units that connect thoughts and things
through meaning. However, words do not appear independently in a text sequence.
The existence of syntactic rules induce correlations among neighboring words.
Further, words are not evenly distributed but approximately follow a power law
since terms with a pure semantic content appear much less often than terms that
specify grammar relations. Using an ordinal pattern approach, we present an
analysis of lexical statistical connections for eleven major languages. We find
that the diverse manners that languages utilize to express word relations give
rise to unique pattern distributions. Remarkably, we find that these relations
can be modeled with a Markov model of order 2 and that this result is
universally valid for all the studied languages. Furthermore, fluctuations of
the pattern distributions can allow us to determine the historical period when
the text was written and its author. Taken together, these results emphasize
the relevance of time series analysis and information-theoretic methods for the
understanding of statistical correlations in natural languages.
- Abstract(参考訳): 言葉は思考や物事を意味を通して結びつける基本的な言語単位である。
しかし、単語はテキスト列に独立して現れることはない。
構文規則の存在は、隣接する単語間の相関を引き起こす。
さらに、単語は均等に分布しないが、純粋意味的内容を持つ用語は文法関係を規定する用語よりもはるかに少ない頻度で現れるため、ほぼパワー法則に従う。
そこで本研究では,11つの主要言語に対する語彙統計接続の分析を行う。
言語が単語関係を表現するために利用する多種多様な手法は、ユニークなパターン分布をもたらす。
注目すべきことに、これらの関係は位数 2 のマルコフモデルでモデル化でき、この結果はすべての研究された言語に対して普遍的に有効である。
さらに, パターン分布のゆらぎにより, テキストの書き起こし時期とその著者の年代を決定できる。
これらの結果は,自然言語の統計的相関を理解するための時系列解析と情報理論手法の関連性を強調した。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Complex systems approach to natural language [0.0]
複雑性科学の観点から、自然言語の研究で使用される主要な方法論概念を概説する。
定量的言語学における3つの主要な複雑性関連研究動向を概説する。
論文 参考訳(メタデータ) (2024-01-05T12:01:26Z) - Autocorrelations Decay in Texts and Applicability Limits of Language
Models [0.0]
我々は、テキスト中の単語の自己相関が、権力法則に従って崩壊することを実証的に実証した。
複数の言語に翻訳されたテキストに対して、分布意味論がコヒーレントな自己相関減衰指数を与えることを示す。
論文 参考訳(メタデータ) (2023-05-11T07:23:01Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Patterns of Lexical Ambiguity in Contextualised Language Models [9.747449805791092]
本稿では,単語感覚の類似度と共述度を拡張した,人間による注釈付きデータセットを提案する。
どちらの人間の判断も、多文解釈の類似性は意味の同一性とホモニミーの連続性にあることを示している。
我々のデータセットは、語彙的曖昧性の複雑さの大部分を捉えており、文脈的埋め込みのための現実的なテストベッドを提供することができる。
論文 参考訳(メタデータ) (2021-09-27T13:11:44Z) - Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。
ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文 参考訳(メタデータ) (2021-05-31T20:13:44Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。