論文の概要: ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification
- arxiv url: http://arxiv.org/abs/2209.09034v1
- Date: Mon, 19 Sep 2022 14:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:05:53.501053
- Title: ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification
- Title(参考訳): ALEXSIS-PT:ポルトガルの語彙単純化のための新しいリソース
- Authors: Kai North, Marcos Zampieri, Tharindu Ranasinghe
- Abstract要約: ALEXSIS-PTは、387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。
本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルを評価する。
- 参考スコア(独自算出の注目度): 17.38318315623124
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lexical simplification (LS) is the task of automatically replacing complex
words for easier ones making texts more accessible to various target
populations (e.g. individuals with low literacy, individuals with learning
disabilities, second language learners). To train and test models, LS systems
usually require corpora that feature complex words in context along with their
candidate substitutions. To continue improving the performance of LS systems we
introduce ALEXSIS-PT, a novel multi-candidate dataset for Brazilian Portuguese
LS containing 9,605 candidate substitutions for 387 complex words. ALEXSIS-PT
has been compiled following the ALEXSIS protocol for Spanish opening exciting
new avenues for cross-lingual models. ALEXSIS-PT is the first LS
multi-candidate dataset that contains Brazilian newspaper articles. We
evaluated four models for substitute generation on this dataset, namely
mDistilBERT, mBERT, XLM-R, and BERTimbau. BERTimbau achieved the highest
performance across all evaluation metrics.
- Abstract(参考訳): lexical simplification (ls) は、複雑な単語を自動的に置き換えて、テキストをさまざまなターゲット集団(リテラシーの低い個人、学習障害を持つ個人、第二言語学習者など)に使いやすくするタスクである。
モデルのトレーニングとテストには、LSシステムは通常、複雑な単語をコンテキストに含むコーパスと、候補の置換を必要とする。
ALEXSIS-PTは387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。
ALEXSIS-PTは、スペイン語のALEXSISプロトコルに従ってコンパイルされ、言語横断モデルのためのエキサイティングな新しい道を開いた。
ALEXSIS-PTは、ブラジルの新聞記事を含む最初のLSマルチ候補データセットである。
本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルについて検討した。
BERTimbauはすべての評価指標で最高のパフォーマンスを達成した。
関連論文リスト
- MultiLS: A Multi-task Lexical Simplification Framework [21.81108113189197]
マルチタスクLSデータセットの作成を可能にする最初のLSフレームワークであるMultiLSを提案する。
また,MultiLSフレームワークを用いた最初のデータセットであるMultiLS-PTを提案する。
論文 参考訳(メタデータ) (2024-02-22T21:16:18Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in
Multilingual Dense Retrieval [55.926286265584565]
SWIM-IRは, 人間の監督を必要とせずに多言語密集検索モデルを訓練するための33言語を含む合成検索訓練データセットである。
XOR-Retrieve (cross-lingual)、XTREME-UP (cross-lingual)、MIRACL (monolingual)の3つの検索ベンチマークを用いて、多言語高密度検索モデルの合成微調整について検討する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Multilingual Controllable Transformer-Based Lexical Simplification [4.718531520078843]
本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
論文 参考訳(メタデータ) (2023-07-05T08:48:19Z) - Deep Learning Approaches to Lexical Simplification: A Survey [19.079916794185642]
レキシカルシンプリフィケーション(Lexical Simplification、LS)は、複合語を文中の単純な単語に置き換える作業である。
LS は Text Simplification (TS) の語彙的構成要素である
近年のディープラーニングの進歩は、LSに新たな関心を喚起している。
論文 参考訳(メタデータ) (2023-05-19T20:56:22Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。