Fugu-MT 論文翻訳(概要): MultiLS-SP/CA: Lexical Complexity Prediction and Lexical Simplification Resources for Catalan and Spanish

論文の概要: MultiLS-SP/CA: Lexical Complexity Prediction and Lexical Simplification Resources for Catalan and Spanish

arxiv url: http://arxiv.org/abs/2404.07814v1
Date: Thu, 11 Apr 2024 14:57:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 13:40:16.752001
Title: MultiLS-SP/CA: Lexical Complexity Prediction and Lexical Simplification Resources for Catalan and Spanish
Title（参考訳）: MultiLS-SP/CA:カタルーニャとスペインにおける語彙複雑度予測と語彙単純化資源
Authors: Stefan Bott, Horacio Saggion, Nelson Peréz Rojas, Martin Solis Salazar, Saul Calderon Ramirez,
Abstract要約: 本稿では,スペイン語とカタルーニャ語における語彙単純化のための新しいデータセットであるMultiLS-SP/CAを提案する。このデータセットは、カタルーニャにおける最初の種であり、自動語彙の単純化に関するスパースデータに実質的な追加である。
参考スコア（独自算出の注目度）: 3.8704030295841534
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatic lexical simplification is a task to substitute lexical items that may be unfamiliar and difficult to understand with easier and more common words. This paper presents MultiLS-SP/CA, a novel dataset for lexical simplification in Spanish and Catalan. This dataset represents the first of its kind in Catalan and a substantial addition to the sparse data on automatic lexical simplification which is available for Spanish. Specifically, MultiLS-SP is the first dataset for Spanish which includes scalar ratings of the understanding difficulty of lexical items. In addition, we describe experiments with this dataset, which can serve as a baseline for future work on the same data.
Abstract（参考訳）: 自動語彙単純化は、不慣れで理解し難い語彙を、より分かりやすくより一般的な言葉で置き換える作業である。本稿では,スペイン語とカタルーニャ語における語彙単純化のための新しいデータセットであるMultiLS-SP/CAを提案する。このデータセットは、カタルーニャで最初の種類のものであり、スペイン語で利用可能な自動語彙の単純化に関するスパースデータに相当量の追加である。特に、MultiLS-SPは、語彙項目の理解の難しさのスカラー評価を含む、スペイン語の最初のデータセットである。さらに、このデータセットによる実験について述べる。これは、同じデータに対する将来の作業のベースラインとして機能する。

関連論文リスト

Modeling Topics and Sociolinguistic Variation in Code-Switched Discourse: Insights from Spanish-English and Spanish-Guaraní [1.0248720782518987]
本研究は, スペイン語とスペイン語の2つの異なる文脈において, バイリンガル言説の社会言語学的および話題的分析のためのLLM支援アノテーションパイプラインを提案する。大規模言語モデルを用いて,3,691のコード切替文に対して,話題,ジャンル,言論的機能を自動的にラベル付けした。結果として得られた分布は、マイアミのデータにおけるジェンダー、言語優位、談話機能と、パラグアイのテキストにおける正式なグアラーンと非公式なスペイン語の明確な区分の間の体系的な関係を明らかにしている。
論文参考訳（メタデータ） (2025-12-03T00:56:27Z)
H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-29T21:24:19Z)
A Novel Dataset for Financial Education Text Simplification in Spanish [4.475176409401273]
スペイン語では、テキスト単純化システムを作成するために使用できるデータセットはほとんどない。我々は、確立された単純化規則を用いて、5,314の複雑で単純化された文対からなるデータセットを作成しました。
論文参考訳（メタデータ） (2023-12-15T15:47:08Z)
Multilingual Controllable Transformer-Based Lexical Simplification [4.718531520078843]
本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
論文参考訳（メタデータ） (2023-07-05T08:48:19Z)
A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文参考訳（メタデータ） (2023-06-07T06:47:34Z)
Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文参考訳（メタデータ） (2023-05-21T18:25:07Z)
Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文参考訳（メタデータ） (2022-12-14T13:41:49Z)
LSA-T: The first continuous Argentinian Sign Language dataset for Sign Language Translation [52.87578398308052]
手話翻訳(SLT)は、人間とコンピュータの相互作用、コンピュータビジョン、自然言語処理、機械学習を含む活発な研究分野である。本稿では,最初の連続的アルゼンチン手話(LSA)データセットを提案する。このビデオには、CN Sordos YouTubeチャンネルから抽出されたLCAの14,880の文レベルのビデオと、各署名者のためのラベルとキーポイントアノテーションが含まれている。
論文参考訳（メタデータ） (2022-11-14T14:46:44Z)
ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification [17.101023503289856]
ALEXSIS-PTは、387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルを評価する。
論文参考訳（メタデータ） (2022-09-19T14:10:21Z)
Lexical Simplification Benchmarks for English, Portuguese, and Spanish [23.90236014260585]
英語,スペイン語,(ブラジル語)ポルトガル語の語彙単純化のための新しいベンチマークデータセットを提案する。これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れていた。
論文参考訳（メタデータ） (2022-09-12T15:06:26Z)
Multilingual Extraction and Categorization of Lexical Collocations with Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文参考訳（メタデータ） (2022-05-23T16:47:37Z)
Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。標準ベンチマークの大幅な向上を報告します。
論文参考訳（メタデータ） (2022-04-30T13:23:16Z)
Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。本研究では,NLS(Neural Label Search for Summarization)を提案する。我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文参考訳（メタデータ） (2022-04-28T14:02:16Z)
Automatic Lexical Simplification for Turkish [0.0]
トルコ語に対する最初の自動語彙単純化システムを提案する。近年のテキスト単純化の取り組みは、手作業による簡易コーパスと包括的NLPツールに依存している。本稿では,事前学習された表現モデル BERT に基づく新しいテキスト単純化パイプラインと形態的特徴を併用して,文法的に正しい意味論的に適切な単語レベルの単純化を生成する。
論文参考訳（メタデータ） (2022-01-15T15:58:44Z)
Predicting Lexical Complexity in English Texts [6.556254680121433]
ほとんどのテキスト簡略化の最初のステップは、特定のターゲット人口のためにどの単語が複雑と見なされるかを予測することです。このタスクは一般に複雑単語識別(CWI)と呼ばれ、しばしば教師付き分類問題としてモデル化される。このようなシステムのトレーニングには、複雑度について単語や時折多語表現がラベル付けされる注釈付きデータセットが必要となる。
論文参考訳（メタデータ） (2021-02-17T14:05:30Z)
Chinese Lexical Simplification [29.464388721085548]
中国の語彙単純化(CLS)に関する研究は行われていない。アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
論文参考訳（メタデータ） (2020-10-14T12:55:36Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。