論文の概要: ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification
- arxiv url: http://arxiv.org/abs/2209.09034v2
- Date: Fri, 9 Feb 2024 15:30:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 21:32:35.884302
- Title: ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification
- Title(参考訳): ALEXSIS-PT:ポルトガルの語彙単純化のための新しいリソース
- Authors: Kai North, Marcos Zampieri, Tharindu Ranasinghe
- Abstract要約: ALEXSIS-PTは、387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。
本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルを評価する。
- 参考スコア(独自算出の注目度): 17.101023503289856
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lexical simplification (LS) is the task of automatically replacing complex
words for easier ones making texts more accessible to various target
populations (e.g. individuals with low literacy, individuals with learning
disabilities, second language learners). To train and test models, LS systems
usually require corpora that feature complex words in context along with their
candidate substitutions. To continue improving the performance of LS systems we
introduce ALEXSIS-PT, a novel multi-candidate dataset for Brazilian Portuguese
LS containing 9,605 candidate substitutions for 387 complex words. ALEXSIS-PT
has been compiled following the ALEXSIS protocol for Spanish opening exciting
new avenues for cross-lingual models. ALEXSIS-PT is the first LS
multi-candidate dataset that contains Brazilian newspaper articles. We
evaluated four models for substitute generation on this dataset, namely
mDistilBERT, mBERT, XLM-R, and BERTimbau. BERTimbau achieved the highest
performance across all evaluation metrics.
- Abstract(参考訳): lexical simplification (ls) は、複雑な単語を自動的に置き換えて、テキストをさまざまなターゲット集団(リテラシーの低い個人、学習障害を持つ個人、第二言語学習者など)に使いやすくするタスクである。
モデルのトレーニングとテストには、LSシステムは通常、複雑な単語をコンテキストに含むコーパスと、候補の置換を必要とする。
ALEXSIS-PTは387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。
ALEXSIS-PTは、スペイン語のALEXSISプロトコルに従ってコンパイルされ、言語横断モデルのためのエキサイティングな新しい道を開いた。
ALEXSIS-PTは、ブラジルの新聞記事を含む最初のLSマルチ候補データセットである。
本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルについて検討した。
BERTimbauはすべての評価指標で最高のパフォーマンスを達成した。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - MultiLS: A Multi-task Lexical Simplification Framework [21.81108113189197]
マルチタスクLSデータセットの作成を可能にする最初のLSフレームワークであるMultiLSを提案する。
また,MultiLSフレームワークを用いた最初のデータセットであるMultiLS-PTを提案する。
論文 参考訳(メタデータ) (2024-02-22T21:16:18Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - Multilingual Controllable Transformer-Based Lexical Simplification [4.718531520078843]
本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
論文 参考訳(メタデータ) (2023-07-05T08:48:19Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。