論文の概要: Probabilistic Method of Measuring Linguistic Productivity
- arxiv url: http://arxiv.org/abs/2308.12643v1
- Date: Thu, 24 Aug 2023 08:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 14:46:12.681091
- Title: Probabilistic Method of Measuring Linguistic Productivity
- Title(参考訳): 言語生産性の確率的測定方法
- Authors: Sergei Monakhov
- Abstract要約: 本稿では, 言語的生産性を客観的に評価する手法を提案する。
トークン周波数は生産性指標を支配せず、基地のサンプリングに自然に影響を及ぼす。
コーパスに基づくアプローチとランダム化設計により、昔に作られた真のネオロジズムと単語が平等に選択される可能性が保証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper I propose a new way of measuring linguistic productivity that
objectively assesses the ability of an affix to be used to coin new complex
words and, unlike other popular measures, is not directly dependent upon token
frequency. Specifically, I suggest that linguistic productivity may be viewed
as the probability of an affix to combine with a random base. The advantages of
this approach include the following. First, token frequency does not dominate
the productivity measure but naturally influences the sampling of bases.
Second, we are not just counting attested word types with an affix but rather
simulating the construction of these types and then checking whether they are
attested in the corpus. Third, a corpus-based approach and randomised design
assure that true neologisms and words coined long ago have equal chances to be
selected. The proposed algorithm is evaluated both on English and Russian data.
The obtained results provide some valuable insights into the relation of
linguistic productivity to the number of types and tokens. It looks like
burgeoning linguistic productivity manifests itself in an increasing number of
types. However, this process unfolds in two stages: first comes the increase in
high-frequency items, and only then follows the increase in low-frequency
items.
- Abstract(参考訳): 本稿では,新しい複合語を創り出すための接尾辞の能力を客観的に評価し,他の一般的な尺度とは異なりトークン頻度に直接依存しない言語生産性を測定する新しい方法を提案する。
具体的には、言語生産性をランダムベースと組み合わせたアフィッチの確率と見なすことができると提案する。
このアプローチの利点は以下のとおりである。
まず、トークンの頻度は生産性の尺度を支配しないが、ベースサンプリングに影響を与える。
第二に、テスト済みのワードタイプをaffixでカウントするだけでなく、これらの型の構築をシミュレートし、コーパスでテスト済みかどうかをチェックします。
第三に、コーパスに基づくアプローチとランダム化設計により、昔に作られた真のネオロジズムと単語が平等に選択される可能性が保証される。
提案アルゴリズムは、英語とロシア語のデータに基づいて評価される。
得られた結果は、言語的生産性と型とトークンの数との関係に関する貴重な洞察を提供する。
言語的生産性の急上昇は、その種類が増えているように見える。
しかし、このプロセスは2つの段階に展開する: まず、高周波アイテムの増加、それから低周波数アイテムの増加のみである。
関連論文リスト
- How to Compute the Probability of a Word [45.23856093235994]
本稿では,単語確率の正しい計算法を導出する。
確率計算における広範囲なバグの修正は,文理解および語彙最適化分析における測定結果に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-20T17:59:42Z) - On the Usefulness of Embeddings, Clusters and Strings for Text Generator
Evaluation [86.19634542434711]
Mauveは、弦上の2つの確率分布間の情報理論のばらつきを測定する。
我々は,Mauveが誤った理由で正しいことを示し,新たに提案された分岐はハイパフォーマンスには必要ないことを示した。
テキストの構文的およびコヒーレンスレベルの特徴を符号化することで、表面的な特徴を無視しながら、文字列分布に対するクラスタベースの代替品は、単に最先端の言語ジェネレータを評価するのに良いかもしれない、と結論付けています。
論文 参考訳(メタデータ) (2022-05-31T17:58:49Z) - On the probability-quality paradox in language generation [76.69397802617064]
我々は情報理論レンズを用いて言語生成を分析する。
人間の言語は自然文字列上の分布のエントロピーに近い量の情報を含むべきであると仮定する。
論文 参考訳(メタデータ) (2022-03-31T17:43:53Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Deep Lexical Hypothesis: Identifying personality structure in natural
language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。
この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文 参考訳(メタデータ) (2022-03-04T02:06:10Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - You should evaluate your language model on marginal likelihood
overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。
我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文 参考訳(メタデータ) (2021-09-06T15:37:02Z) - Tweet Sentiment Quantification: An Experimental Re-Evaluation [88.60021378715636]
センチメント定量化(Sentiment Quantification)は、教師付き学習によって、感情関連クラスの相対周波数(prevalence')を推定するタスクである。
統合され、より堅牢な実験プロトコルに従って、これらの定量化手法を再評価する。
結果はガオ・ガオ・セバスティアーニ(Gao Gao Sebastiani)によって得られたものとは大きく異なり、異なる感情量化法の相対的な強さと弱さについて、よりしっかりとした理解を提供する。
論文 参考訳(メタデータ) (2020-11-04T21:41:34Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。