論文の概要: Lexical Complexity Prediction and Lexical Simplification for Catalan and Spanish: Resource Creation, Quality Assessment, and Ethical Considerations
- arxiv url: http://arxiv.org/abs/2404.07814v2
- Date: Thu, 20 Feb 2025 09:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:25:40.431635
- Title: Lexical Complexity Prediction and Lexical Simplification for Catalan and Spanish: Resource Creation, Quality Assessment, and Ethical Considerations
- Title(参考訳): カタルーニャ語とスペイン語の語彙複雑度予測と語彙単純化:資源創造、品質評価、倫理的考察
- Authors: Stefan Bott, Horacio Saggion, Nelson Peréz Rojas, Martin Solis Salazar, Saul Calderon Ramirez,
- Abstract要約: 本稿では,スペイン語とカタルーニャ語における語彙単純化のための2つの新しいデータセットの記述と解析について述べる。
このデータセットは、カタルーニャにおける最初の種であり、自動語彙の単純化に関するスパースデータに実質的な追加である。
- 参考スコア(独自算出の注目度): 3.8704030295841534
- License:
- Abstract: Automatic lexical simplification is a task to substitute lexical items that may be unfamiliar and difficult to understand with easier and more common words. This paper presents the description and analysis of two novel datasets for lexical simplification in Spanish and Catalan. This dataset represents the first of its kind in Catalan and a substantial addition to the sparse data on automatic lexical simplification which is available for Spanish. Specifically, it is the first dataset for Spanish which includes scalar ratings of the understanding difficulty of lexical items. In addition, we present a detailed analysis aiming at assessing the appropriateness and ethical dimensions of the data for the lexical simplification task.
- Abstract(参考訳): 自動語彙単純化は、不慣れで理解し難い語彙を、より分かりやすくより一般的な言葉で置き換える作業である。
本稿では,スペイン語とカタルーニャ語における語彙単純化のための2つの新しいデータセットの記述と解析について述べる。
このデータセットは、カタルーニャで最初の種類のものであり、スペイン語で利用可能な自動語彙の単純化に関するスパースデータに相当量の追加である。
具体的には、語彙項目の理解の難しさのスカラー評価を含む、スペイン語の最初のデータセットである。
さらに,語彙的単純化作業におけるデータの適切性および倫理的次元を評価することを目的とした詳細な分析を行った。
関連論文リスト
- A Novel Dataset for Financial Education Text Simplification in Spanish [4.475176409401273]
スペイン語では、テキスト単純化システムを作成するために使用できるデータセットはほとんどない。
我々は、確立された単純化規則を用いて、5,314の複雑で単純化された文対からなるデータセットを作成しました。
論文 参考訳(メタデータ) (2023-12-15T15:47:08Z) - Multilingual Controllable Transformer-Based Lexical Simplification [4.718531520078843]
本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
論文 参考訳(メタデータ) (2023-07-05T08:48:19Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - LSA-T: The first continuous Argentinian Sign Language dataset for Sign
Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。
本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。
このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文 参考訳(メタデータ) (2022-11-14T14:46:44Z) - ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification [17.101023503289856]
ALEXSIS-PTは、387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。
本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルを評価する。
論文 参考訳(メタデータ) (2022-09-19T14:10:21Z) - Lexical Simplification Benchmarks for English, Portuguese, and Spanish [23.90236014260585]
英語,スペイン語,(ブラジル語)ポルトガル語の語彙単純化のための新しいベンチマークデータセットを提案する。
これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。
最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れていた。
論文 参考訳(メタデータ) (2022-09-12T15:06:26Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Chinese Lexical Simplification [29.464388721085548]
中国の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。
複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
論文 参考訳(メタデータ) (2020-10-14T12:55:36Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。