論文の概要: CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data
- arxiv url: http://arxiv.org/abs/2003.07008v3
- Date: Thu, 11 Jun 2020 16:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:13:49.213074
- Title: CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data
- Title(参考訳): CompLex:Likertスケールデータによる語彙複雑度予測のための新しいコーパス
- Authors: Matthew Shardlow, Michael Cooper, Marcos Zampieri
- Abstract要約: 本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
- 参考スコア(独自算出の注目度): 13.224233182417636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting which words are considered hard to understand for a given target
population is a vital step in many NLP applications such as text
simplification. This task is commonly referred to as Complex Word
Identification (CWI). With a few exceptions, previous studies have approached
the task as a binary classification task in which systems predict a complexity
value (complex vs. non-complex) for a set of target words in a text. This
choice is motivated by the fact that all CWI datasets compiled so far have been
annotated using a binary annotation scheme. Our paper addresses this limitation
by presenting the first English dataset for continuous lexical complexity
prediction. We use a 5-point Likert scale scheme to annotate complex words in
texts from three sources/domains: the Bible, Europarl, and biomedical texts.
This resulted in a corpus of 9,476 sentences each annotated by around 7
annotators.
- Abstract(参考訳): テキストの単純化など、多くのNLPアプリケーションにおいて、どの単語が与えられたターゲット集団に対して理解しにくいかを予測することが重要なステップである。
このタスクは一般に複雑単語識別(CWI)と呼ばれる。
いくつかの例外を除いて、従来の研究では、テキスト中の対象単語の集合に対する複雑性値(複雑対非複雑)をシステムが予測するバイナリ分類タスクとして、このタスクにアプローチしてきた。
この選択は、これまでコンパイルされたすべてのCWIデータセットがバイナリアノテーションスキームを使用して注釈付けされているという事実によって動機付けられている。
本論文は,連続語彙複雑性予測のための最初の英語データセットを提示することで,この制限に対処する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから複雑な単語をテキストに注釈付けする。
その結果、約7人の注釈者がそれぞれ9,476の文を注釈付けした。
関連論文リスト
- Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification [0.0]
本稿では,複合文と複合文を簡易文の集合に分割・言い換える,古典的な構文的依存性に基づく手法を提案する。
また,文の構文的複雑さを同定し,測定するアルゴリズムも導入した。
この研究は、WSDM-2023 Conferenceにおいて、Learning with Knowledge Graphs (IWLKG) に関する国際ワークショップで受け入れられ、発表された。
論文 参考訳(メタデータ) (2023-04-16T13:13:58Z) - Lexical Complexity Prediction: An Overview [13.224233182417636]
テキスト中の未知の単語の発生は、読書の理解を著しく妨げている。
計算モデリングは、テキスト中の複雑な単語を識別し、より単純な代替語に置き換えるために応用されている。
本稿では,英文データに基づく語彙複雑性予測に対する計算手法の概要について述べる。
論文 参考訳(メタデータ) (2023-03-08T19:35:08Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Measuring Annotator Agreement Generally across Complex Structured,
Multi-object, and Free-text Annotation Tasks [79.24863171717972]
品質保証のための重要な指標は、IAA(Inter-annotator Agreement)である。
単純な分類的および順序的なラベリングタスクには対策があるが、より複雑なラベリングタスクを考える作業はほとんどない。
クリッペンドルフのαは、より単純なラベリングタスクでよく用いられるが、より広い適用性を持つ距離ベースの定式化を持つ。
論文 参考訳(メタデータ) (2022-12-15T20:12:48Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - One Size Does Not Fit All: The Case for Personalised Word Complexity
Models [4.035753155957698]
複雑な単語識別(CWI)は、読者が理解し難いと思われるテキスト内の単語を検出することを目的としている。
本稿では,個人読者の単語の複雑さを予測する上で,個人モデルが最も優れていることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:53:31Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for
Lexical Complexity Prediction [4.86331990243181]
本稿では,チームLCP-RITによるSemEval-2021 Task 1: Lexical Complexity Prediction (LCP)の提出について述べる。
本システムでは,ロジスティック回帰と幅広い言語的特徴を用いて,このデータセットにおける単一単語の複雑さを予測する。
結果は平均絶対誤差,平均二乗誤差,ピアソン相関,スピアマン相関で評価した。
論文 参考訳(メタデータ) (2021-05-18T18:55:04Z) - Predicting Lexical Complexity in English Texts [6.556254680121433]
ほとんどのテキスト簡略化の最初のステップは、特定のターゲット人口のためにどの単語が複雑と見なされるかを予測することです。
このタスクは一般に複雑単語識別(CWI)と呼ばれ、しばしば教師付き分類問題としてモデル化される。
このようなシステムのトレーニングには、複雑度について単語や時折多語表現がラベル付けされる注釈付きデータセットが必要となる。
論文 参考訳(メタデータ) (2021-02-17T14:05:30Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。