論文の概要: Using Letter Positional Probabilities to Assess Word Complexity
- arxiv url: http://arxiv.org/abs/2404.07768v4
- Date: Mon, 5 Aug 2024 13:12:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 23:07:02.285279
- Title: Using Letter Positional Probabilities to Assess Word Complexity
- Title(参考訳): 文字位置確率を用いた単語複雑度の評価
- Authors: Michael Dalvean,
- Abstract要約: いくつかのLPPと複雑性の間には強い統計的関連性がある。
単純な単語はw, b, s, h, g, k, j, t, y, f で始まる傾向が著しく(p.001)、複雑な単語は i, a, e, r, v, u, d で始まる傾向が著しく(p.001)である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word complexity is defined in a number of different ways. Psycholinguistic, morphological and lexical proxies are often used. Human ratings are also used. The problem here is that these proxies do not measure complexity directly, and human ratings are susceptible to subjective bias. In this study we contend that some form of 'latent complexity' can be approximated by using samples of simple and complex words. We use a sample of 'simple' words from primary school picture books and a sample of 'complex' words from high school and academic settings. In order to analyse the differences between these classes, we look at the letter positional probabilities (LPPs). We find strong statistical associations between several LPPs and complexity. For example, simple words are significantly (p<.001) more likely to start with w, b, s, h, g, k, j, t, y or f, while complex words are significantly (p<.001) more likely to start with i, a, e, r, v, u or d. We find similar strong associations for subsequent letter positions, with 84 letter-position variables in the first 6 positions being significant at the p<.001 level. We then use LPPs as variables in creating a classifier which can classify the two classes with an 83% accuracy. We test these findings using a second data set, with 66 LPPs significant (p<.001) in the first 6 positions common to both datasets. We use these 66 variables to create a classifier that is able to classify a third dataset with an accuracy of 70%. Finally, we create a fourth sample by combining the extreme high and low scoring words generated by three classifiers built on the first three separate datasets and use this sample to build a classifier which has an accuracy of 97%. We use this to score the four levels of English word groups from an ESL program.
- Abstract(参考訳): 単語の複雑さは、様々な方法で定義されます。
心理言語学、形態学、語彙のプロキシがよく用いられる。
人間の格付けも用いられる。
ここでの問題は、これらのプロキシが直接複雑性を測定しておらず、人間の評価は主観的偏見に影響を受けやすいことである。
本研究では, 単純かつ複雑な単語のサンプルを用いて, ある種の「ラテント複雑性」を近似できることを論じる。
小学校の絵本からの「単純な」単語のサンプルと、高校や学界の「複雑な」単語のサンプルを用いる。
これらのクラスの違いを分析するために,文字位置確率(LPP)について検討する。
いくつかのLPPと複雑性の間には強い統計的関連性がある。
例えば、単純な単語はw, b, s, h, g, k, t, y, f で始まる傾向が強く(p<.001)、複雑な単語は i, a, e, r, v, u, d で始まる傾向が強い(p<.001)。
後続の文字位置に関しては同様の強い相関関係がみられ、最初の6位では84の文字位置変数がp<.001レベルで有意である。
次に LPP を変数として2つのクラスを 83% の精度で分類できる分類器を作成する。
両データセットに共通する第1の6つの位置において66個のLPP(p<.001)を有する第2のデータセットを用いてこれらの結果を検証した。
これらの66変数を使用して、第3のデータセットを70%の精度で分類できる分類器を作成します。
最後に、第1の3つのデータセット上に構築された3つの分類器によって生成された極端に高い評価語と低い評価語を組み合わせて第4のサンプルを作成し、このサンプルを使用して精度97%の分類器を構築する。
これを用いて、ESLプログラムから英語の単語群の4つのレベルをスコアリングする。
関連論文リスト
- SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z) - Domain Adaptation in Multilingual and Multi-Domain Monolingual Settings
for Complex Word Identification [0.27998963147546146]
複雑な単語識別(CWI)は、適切なテキストの単純化に向けた基礎的なプロセスである。
CWIはコンテキストに大きく依存するが、その困難さは利用可能なデータセットの不足によって増大する。
対象文字とコンテキスト表現を改善するために,ドメイン適応に基づくCWIタスクのための新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-05-15T13:21:02Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Deep Lexical Hypothesis: Identifying personality structure in natural
language [0.30458514384586394]
言語モデルから形容詞類似性を抽出する手法を提案する。
この方法で生成した相関構造は、ソーシエとゴールドバーグが報告した435項の自己および他値の相関構造と非常によく似ている。
特に、神経症と開放性は弱く、矛盾なく回復するだけである。
論文 参考訳(メタデータ) (2022-03-04T02:06:10Z) - SPaR.txt, a cheap Shallow Parsing approach for Regulatory texts [6.656036869700669]
本研究では,学習データが比較的安価に作成できる浅層解析タスクを提案する。
手動による評価により, 建築規制文書の集合において, 定義項の89,84%が定義されていることがわかった。
論文 参考訳(メタデータ) (2021-10-04T10:00:22Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z) - Text Complexity Classification Based on Linguistic Information:
Application to Intelligent Tutoring of ESL [0.0]
本研究の目的は、英語を第二言語(ESL)学習者として教える文脈の中で、テキストの複雑さを識別できる分類器を構築することである。
ESLの専門家によって既に3つの難易度に分類されていた6171テキストのコーパスを用いて、5つの機械学習アルゴリズムを用いて異なる実験を行った。
その結果, 言語学的特徴は, 総合的な分類性能に優れていた。
論文 参考訳(メタデータ) (2020-01-07T02:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。