論文の概要: Heaps' law and Heaps functions in tagged texts: Evidences of their
linguistic relevance
- arxiv url: http://arxiv.org/abs/2001.02178v1
- Date: Tue, 7 Jan 2020 17:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:52:00.086773
- Title: Heaps' law and Heaps functions in tagged texts: Evidences of their
linguistic relevance
- Title(参考訳): タグ付きテキストにおけるヒープの法則とヒープ関数:その言語的関連性の証拠
- Authors: Andr\'es Chacoma and Dami\'an H. Zanette
- Abstract要約: 英文学作品75ドルのコーパスにおいて,語彙サイズと文長の関係について検討した。
我々は、各テキストに沿って、各タグの新しい単語の進行的な出現を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the relationship between vocabulary size and text length in a corpus
of $75$ literary works in English, authored by six writers, distinguishing
between the contributions of three grammatical classes (or ``tags,'' namely,
{\it nouns}, {\it verbs}, and {\it others}), and analyze the progressive
appearance of new words of each tag along each individual text. While the
power-law relation prescribed by Heaps' law is satisfactorily fulfilled by
total vocabulary sizes and text lengths, the appearance of new words in each
text is on the whole well described by the average of random shufflings of the
text, which does not obey a power law. Deviations from this average, however,
are statistically significant and show a systematic trend across the corpus.
Specifically, they reveal that the appearance of new words along each text is
predominantly retarded with respect to the average of random shufflings.
Moreover, different tags are shown to add systematically distinct contributions
to this tendency, with {\it verbs} and {\it others} being respectively more and
less retarded than the mean trend, and {\it nouns} following instead this
overall mean. These statistical systematicities are likely to point to the
existence of linguistically relevant information stored in the different
variants of Heaps' law, a feature that is still in need of extensive
assessment.
- Abstract(参考訳): 語彙サイズと文長の関係を,6人の著者が著述した英語の775ドルの文学作品のコーパスで検討し,3つの文法クラス(「タグ」,「名詞」,「動詞」,「他」)の寄与度を区別し,各テキストに沿ってタグの新たな単語の出現を漸進的に分析した。
ヘップスの法則で規定される法則関係は、全語彙サイズとテキストの長さで十分満足に満たされるが、各テキストにおける新しい単語の出現は、パワー法に従わないテキストのランダムシャッフルの平均によって完全にうまく記述されている。
しかし、この平均からの偏差は統計的に有意であり、コーパス全体にわたって系統的な傾向を示す。
具体的には、各テキストに沿った新しい単語の出現は、ランダムなシャッフルの平均に対して、主に妨げられている。
さらに、異なるタグは、この傾向に体系的に異なる貢献をすることを示しており、一方、"it verbs} と "it others} は、それぞれ平均傾向よりも遅くなり、代わりに "it nouns} は、この全体的な平均に従う。
これらの統計学的体系は、ヘプスの法則の異なる変種に格納されている言語学的に関連のある情報の存在を示唆している可能性が高い。
関連論文リスト
- Entropy and type-token ratio in gigaword corpora [0.0]
本研究では,英語,スペイン語,トルコ語の6つの大規模言語データセットにおいて,語彙の多様性を示す2つの指標であるエントロピーとテキストトケン比について検討した。
コーパスを横切るエントロピーとテキスト-トケン比の関数的関係が検討されている。
この結果は,テキスト構造の理論的理解に寄与し,自然言語処理などの分野に実践的な意味を与える。
論文 参考訳(メタデータ) (2024-11-15T14:40:59Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Universality and diversity in word patterns [0.0]
本稿では,11言語を対象とした語彙統計関係の分析を行う。
言語が単語関係を表現するために利用する多種多様な方法が、ユニークなパターン分布を生み出していることがわかった。
論文 参考訳(メタデータ) (2022-08-23T20:03:27Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Word frequency-rank relationship in tagged texts [0.0]
3つの異なる文法クラスに対応するサブ語彙の周波数-ランク関係を解析する。
この結果は、周波数ランク関係が文法関数に関連する言語的特徴を反映している可能性があることを指摘する。
論文 参考訳(メタデータ) (2021-02-07T15:17:51Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - Generalized Word Shift Graphs: A Method for Visualizing and Explaining
Pairwise Comparisons Between Texts [0.15833270109954134]
計算テキスト分析における一般的な課題は、2つのコーパスが単語頻度、感情、情報内容などの測定によってどのように異なるかを定量化することである。
一般化された単語シフトグラフを導入し、個々の単語が2つのテキスト間の変動にどのように貢献するかを意味的かつ解釈可能な要約を生成する。
このフレームワークは、相対周波数、辞書スコア、Kulback-LeiblerやJensen-Shannonの発散といったエントロピーに基づく測度など、テキストの比較によく使われる多くのアプローチを自然に含んでいることを示す。
論文 参考訳(メタデータ) (2020-08-05T17:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。