論文の概要: Multilingual Controllable Transformer-Based Lexical Simplification
- arxiv url: http://arxiv.org/abs/2307.02120v1
- Date: Wed, 5 Jul 2023 08:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:35:45.763423
- Title: Multilingual Controllable Transformer-Based Lexical Simplification
- Title(参考訳): 多言語制御可能なトランスベースの語彙単純化
- Authors: Kim Cheng Sheang and Horacio Saggion
- Abstract要約: 本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
- 参考スコア(独自算出の注目度): 4.718531520078843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text is by far the most ubiquitous source of knowledge and information and
should be made easily accessible to as many people as possible; however, texts
often contain complex words that hinder reading comprehension and
accessibility. Therefore, suggesting simpler alternatives for complex words
without compromising meaning would help convey the information to a broader
audience. This paper proposes mTLS, a multilingual controllable
Transformer-based Lexical Simplification (LS) system fined-tuned with the T5
model. The novelty of this work lies in the use of language-specific prefixes,
control tokens, and candidates extracted from pre-trained masked language
models to learn simpler alternatives for complex words. The evaluation results
on three well-known LS datasets -- LexMTurk, BenchLS, and NNSEval -- show that
our model outperforms the previous state-of-the-art models like LSBert and
ConLS. Moreover, further evaluation of our approach on the part of the recent
TSAR-2022 multilingual LS shared-task dataset shows that our model performs
competitively when compared with the participating systems for English LS and
even outperforms the GPT-3 model on several metrics. Moreover, our model
obtains performance gains also for Spanish and Portuguese.
- Abstract(参考訳): テキストは、最もユビキタスな知識と情報ソースであり、できるだけ多くの人に簡単にアクセスできるようにすべきであるが、テキストには、理解とアクセシビリティを阻害する複雑な単語が含まれていることが多い。
したがって、複雑な単語に対するより単純な選択肢を提案することは、より広い聴衆に情報を伝えるのに役立つ。
本稿では,多言語制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
LexMTurk、BenchLS、NNSEvalの3つのよく知られたLSデータセットの評価結果は、我々のモデルがLSBertやConLSといった従来の最先端モデルよりも優れていることを示している。
さらに,最近のtsar-2022多言語ls共有タスクデータセットにおける本手法のさらなる評価により,本モデルが英語lsの学習システムと比較した場合,いくつかの指標でgpt-3モデルを上回る性能を示した。
さらに,本モデルではスペイン語とポルトガル語のパフォーマンスも向上する。
関連論文リスト
- MultiLS: A Multi-task Lexical Simplification Framework [21.81108113189197]
マルチタスクLSデータセットの作成を可能にする最初のLSフレームワークであるMultiLSを提案する。
また,MultiLSフレームワークを用いた最初のデータセットであるMultiLS-PTを提案する。
論文 参考訳(メタデータ) (2024-02-22T21:16:18Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z) - Controllable Lexical Simplification for English [3.994126642748072]
本稿では,T5を微調整した制御可能な語彙単純化システムを提案する。
我々のモデルはLSBertに匹敵する性能を示し、場合によってはそれよりも優れています。
論文 参考訳(メタデータ) (2023-02-06T16:09:27Z) - ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification [17.101023503289856]
ALEXSIS-PTは、387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。
本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルを評価する。
論文 参考訳(メタデータ) (2022-09-19T14:10:21Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Learning Disentangled Semantic Representations for Zero-Shot
Cross-Lingual Transfer in Multilingual Machine Reading Comprehension [40.38719019711233]
マルチリンガル事前学習モデルは、機械読取理解(MRC)において、リッチリソース言語から低リソース言語への移行知識をゼロショットで得ることができる
本稿では,シメセマンティック・ディスタングルメント・モデル(SSDM)を用いた,多言語事前学習モデルで学習した表現の構文から意味論を解離させる新しい多言語MRCフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-03T05:26:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。