論文の概要: Multilingual Controllable Transformer-Based Lexical Simplification
- arxiv url: http://arxiv.org/abs/2307.02120v1
- Date: Wed, 5 Jul 2023 08:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:35:45.763423
- Title: Multilingual Controllable Transformer-Based Lexical Simplification
- Title(参考訳): 多言語制御可能なトランスベースの語彙単純化
- Authors: Kim Cheng Sheang and Horacio Saggion
- Abstract要約: 本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
- 参考スコア(独自算出の注目度): 4.718531520078843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text is by far the most ubiquitous source of knowledge and information and
should be made easily accessible to as many people as possible; however, texts
often contain complex words that hinder reading comprehension and
accessibility. Therefore, suggesting simpler alternatives for complex words
without compromising meaning would help convey the information to a broader
audience. This paper proposes mTLS, a multilingual controllable
Transformer-based Lexical Simplification (LS) system fined-tuned with the T5
model. The novelty of this work lies in the use of language-specific prefixes,
control tokens, and candidates extracted from pre-trained masked language
models to learn simpler alternatives for complex words. The evaluation results
on three well-known LS datasets -- LexMTurk, BenchLS, and NNSEval -- show that
our model outperforms the previous state-of-the-art models like LSBert and
ConLS. Moreover, further evaluation of our approach on the part of the recent
TSAR-2022 multilingual LS shared-task dataset shows that our model performs
competitively when compared with the participating systems for English LS and
even outperforms the GPT-3 model on several metrics. Moreover, our model
obtains performance gains also for Spanish and Portuguese.
- Abstract(参考訳): テキストは、最もユビキタスな知識と情報ソースであり、できるだけ多くの人に簡単にアクセスできるようにすべきであるが、テキストには、理解とアクセシビリティを阻害する複雑な単語が含まれていることが多い。
したがって、複雑な単語に対するより単純な選択肢を提案することは、より広い聴衆に情報を伝えるのに役立つ。
本稿では,多言語制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。
この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
LexMTurk、BenchLS、NNSEvalの3つのよく知られたLSデータセットの評価結果は、我々のモデルがLSBertやConLSといった従来の最先端モデルよりも優れていることを示している。
さらに,最近のtsar-2022多言語ls共有タスクデータセットにおける本手法のさらなる評価により,本モデルが英語lsの学習システムと比較した場合,いくつかの指標でgpt-3モデルを上回る性能を示した。
さらに,本モデルではスペイン語とポルトガル語のパフォーマンスも向上する。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。
我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文 参考訳(メタデータ) (2024-06-21T20:02:22Z) - TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - MultiLS: A Multi-task Lexical Simplification Framework [21.81108113189197]
マルチタスクLSデータセットの作成を可能にする最初のLSフレームワークであるMultiLSを提案する。
また,MultiLSフレームワークを用いた最初のデータセットであるMultiLS-PTを提案する。
論文 参考訳(メタデータ) (2024-02-22T21:16:18Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。
近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。
本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文 参考訳(メタデータ) (2023-02-28T01:27:37Z) - Controllable Lexical Simplification for English [3.994126642748072]
本稿では,T5を微調整した制御可能な語彙単純化システムを提案する。
我々のモデルはLSBertに匹敵する性能を示し、場合によってはそれよりも優れています。
論文 参考訳(メタデータ) (2023-02-06T16:09:27Z) - ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification [17.101023503289856]
ALEXSIS-PTは、387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。
本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルを評価する。
論文 参考訳(メタデータ) (2022-09-19T14:10:21Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。