論文の概要: Lexical Complexity Prediction: An Overview
- arxiv url: http://arxiv.org/abs/2303.04851v1
- Date: Wed, 8 Mar 2023 19:35:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 17:07:18.272733
- Title: Lexical Complexity Prediction: An Overview
- Title(参考訳): 語彙複雑性予測:概観
- Authors: Kai North, Marcos Zampieri, Matthew Shardlow
- Abstract要約: テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
- 参考スコア(独自算出の注目度): 13.224233182417636
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The occurrence of unknown words in texts significantly hinders reading
comprehension. To improve accessibility for specific target populations,
computational modelling has been applied to identify complex words in texts and
substitute them for simpler alternatives. In this paper, we present an overview
of computational approaches to lexical complexity prediction focusing on the
work carried out on English data. We survey relevant approaches to this problem
which include traditional machine learning classifiers (e.g. SVMs, logistic
regression) and deep neural networks as well as a variety of features, such as
those inspired by literature in psycholinguistics as well as word frequency,
word length, and many others. Furthermore, we introduce readers to past
competitions and available datasets created on this topic. Finally, we include
brief sections on applications of lexical complexity prediction, such as
readability and text simplification, together with related studies on languages
other than English.
- Abstract(参考訳): テキストに未知の単語が現れると、理解が著しく妨げられる。
特定の対象集団のアクセシビリティを向上させるため、計算モデルを用いてテキスト中の複雑な単語を識別し、より単純な代替語に置き換える。
本稿では,英語データを用いた作業に着目した語彙複雑性予測手法について概説する。
本研究は,従来の機械学習分類器(svm,ロジスティック回帰など)やディープニューラルネットワーク,さらには精神言語学の文献や単語頻度,単語長など,さまざまな特徴を含む,この問題に対する関連するアプローチを調査した。
さらに,このトピックに基づいて作成された過去のコンペティションや利用可能なデータセットについても紹介する。
最後に、英語以外の言語に関する関連する研究とともに、可読性やテキスト単純化など、語彙複雑性予測の応用に関する簡単なセクションを含む。
関連論文リスト
- On the Proper Treatment of Tokenization in Psycholinguistics [53.960910019072436]
論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。
興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
論文 参考訳(メタデータ) (2024-10-03T17:18:03Z) - Understanding Cross-Lingual Alignment -- A Survey [52.572071017877704]
言語間アライメントは多言語言語モデルにおける言語間の表現の有意義な類似性である。
本研究は,言語間アライメントの向上,手法の分類,分野全体からの洞察の要約といった手法の文献を調査する。
論文 参考訳(メタデータ) (2024-04-09T11:39:53Z) - Computational Sentence-level Metrics Predicting Human Sentence Comprehension [27.152245569974678]
本研究では,多言語大言語モデルを用いた文レベルメトリクスの計算手法を提案する。
文素因性および文関連性を測定し,言語全体にわたって人間が文章をどう理解するかを予測できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-03-23T12:19:49Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - One Size Does Not Fit All: The Case for Personalised Word Complexity
Models [4.035753155957698]
複雑な単語識別(CWI)は、読者が理解し難いと思われるテキスト内の単語を検出することを目的としている。
本稿では,個人読者の単語の複雑さを予測する上で,個人モデルが最も優れていることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:53:31Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Predicting Lexical Complexity in English Texts [6.556254680121433]
ほとんどのテキスト簡略化の最初のステップは、特定のターゲット人口のためにどの単語が複雑と見なされるかを予測することです。
このタスクは一般に複雑単語識別(CWI)と呼ばれ、しばしば教師付き分類問題としてモデル化される。
このようなシステムのトレーニングには、複雑度について単語や時折多語表現がラベル付けされる注釈付きデータセットが必要となる。
論文 参考訳(メタデータ) (2021-02-17T14:05:30Z) - Text Mining for Processing Interview Data in Computational Social
Science [0.6820436130599382]
我々は、市販のテキスト分析技術を用いて、計算社会科学研究からのインタビューテキストデータを処理する。
局所的クラスタリングと用語的エンリッチメントが,応答の探索と定量化に有用であることがわかった。
我々は社会科学の研究にテキスト分析を使うことを奨励し、特に探索的オープンエンドな研究に力を入れている。
論文 参考訳(メタデータ) (2020-11-28T00:44:35Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。