論文の概要: Lexical Simplification Benchmarks for English, Portuguese, and Spanish
- arxiv url: http://arxiv.org/abs/2209.05301v1
- Date: Mon, 12 Sep 2022 15:06:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:09:28.368707
- Title: Lexical Simplification Benchmarks for English, Portuguese, and Spanish
- Title(参考訳): 英語、ポルトガル語、スペイン語の語彙単純化ベンチマーク
- Authors: Sanja Stajner, Daniel Ferres, Matthew Shardlow, Kai North, Marcos
Zampieri, Horacio Saggion
- Abstract要約: 英語,スペイン語,(ブラジル語)ポルトガル語の語彙単純化のための新しいベンチマークデータセットを提案する。
これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。
最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れていた。
- 参考スコア(独自算出の注目度): 23.90236014260585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Even in highly-developed countries, as many as 15-30\% of the population can
only understand texts written using a basic vocabulary. Their understanding of
everyday texts is limited, which prevents them from taking an active role in
society and making informed decisions regarding healthcare, legal
representation, or democratic choice. Lexical simplification is a natural
language processing task that aims to make text understandable to everyone by
replacing complex vocabulary and expressions with simpler ones, while
preserving the original meaning. It has attracted considerable attention in the
last 20 years, and fully automatic lexical simplification systems have been
proposed for various languages. The main obstacle for the progress of the field
is the absence of high-quality datasets for building and evaluating lexical
simplification systems. We present a new benchmark dataset for lexical
simplification in English, Spanish, and (Brazilian) Portuguese, and provide
details about data selection and annotation procedures. This is the first
dataset that offers a direct comparison of lexical simplification systems for
three languages. To showcase the usability of the dataset, we adapt two
state-of-the-art lexical simplification systems with differing architectures
(neural vs.\ non-neural) to all three languages (English, Spanish, and
Brazilian Portuguese) and evaluate their performances on our new dataset. For a
fairer comparison, we use several evaluation measures which capture varied
aspects of the systems' efficacy, and discuss their strengths and weaknesses.
We find a state-of-the-art neural lexical simplification system outperforms a
state-of-the-art non-neural lexical simplification system in all three
languages. More importantly, we find that the state-of-the-art neural lexical
simplification systems perform significantly better for English than for
Spanish and Portuguese.
- Abstract(参考訳): 高度に発達した国でさえ、人口の15-30\%は基本的な語彙で書かれたテキストしか理解できない。
日常的な文章に対する理解は限られており、社会において活発な役割を担い、医療、法的な表現、民主的選択に関する情報的な決定をすることを妨げる。
Lexical simplificationは、複雑な語彙や表現をシンプルに置き換え、本来の意味を保ちながら、テキストを誰でも理解できるようにすることを目的とした自然言語処理タスクである。
過去20年間にかなりの注目を集め、様々な言語で完全に自動化された語彙単純化システムが提案されている。
この分野の進展の主な障害は、語彙的単純化システムの構築と評価のための高品質なデータセットがないことである。
本稿では,英語,スペイン語,(ブラジル語)ポルトガル語における語彙簡略化のための新しいベンチマークデータセットを示し,データ選択とアノテーション手順の詳細を提供する。
これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。
データセットのユーザビリティを示すために,異なるアーキテクチャ(ニューラル対ニューラル)を持つ2つの最先端の語彙単純化システムを適用した。
英語、スペイン語、ブラジルポルトガル語の3つの言語すべてに対して、新しいデータセットでのパフォーマンスを評価します。
より公平な比較のために、システムの有効性の様々な側面を捉え、その強みと弱みについて議論するいくつかの評価尺度を用いる。
最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れている。
さらに重要なことは、現在最先端の神経語彙の単純化システムは、スペイン語やポルトガル語よりも英語の方がはるかに優れているということです。
関連論文リスト
- MultiLS-SP/CA: Lexical Complexity Prediction and Lexical Simplification Resources for Catalan and Spanish [3.8704030295841534]
本稿では,スペイン語とカタルーニャ語における語彙単純化のための新しいデータセットであるMultiLS-SP/CAを提案する。
このデータセットは、カタルーニャにおける最初の種であり、自動語彙の単純化に関するスパースデータに実質的な追加である。
論文 参考訳(メタデータ) (2024-04-11T14:57:19Z) - A Novel Dataset for Financial Education Text Simplification in Spanish [4.475176409401273]
スペイン語では、テキスト単純化システムを作成するために使用できるデータセットはほとんどない。
我々は、確立された単純化規則を用いて、5,314の複雑で単純化された文対からなるデータセットを作成しました。
論文 参考訳(メタデータ) (2023-12-15T15:47:08Z) - Gaze-Driven Sentence Simplification for Language Learners: Enhancing
Comprehension and Readability [11.50011780498048]
本稿では,読解理解を高めるために,新しい視線駆動型文簡略化システムを提案する。
本システムでは、個々の学習者に適した機械学習モデルを導入し、視線特徴と言語特徴を組み合わせて文理解を評価する。
論文 参考訳(メタデータ) (2023-09-30T12:18:31Z) - ARTIST: ARTificial Intelligence for Simplified Text [5.095775294664102]
テキスト単純化は、テキストの言語的複雑さを減らすことを目的とした、自然言語処理の重要なタスクである。
生成人工知能(AI)の最近の進歩により、語彙レベルと構文レベルの両方で自動テキストの簡略化が可能になった。
論文 参考訳(メタデータ) (2023-08-25T16:06:06Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。