Fugu-MT 論文翻訳(概要): Multilingual Controllable Transformer-Based Lexical Simplification

論文の概要: Multilingual Controllable Transformer-Based Lexical Simplification

arxiv url: http://arxiv.org/abs/2307.02120v1
Date: Wed, 5 Jul 2023 08:48:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 14:35:45.763423
Title: Multilingual Controllable Transformer-Based Lexical Simplification
Title（参考訳）: 多言語制御可能なトランスベースの語彙単純化
Authors: Kim Cheng Sheang and Horacio Saggion
Abstract要約: 本稿では,制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。
参考スコア（独自算出の注目度）: 4.718531520078843
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text is by far the most ubiquitous source of knowledge and information and should be made easily accessible to as many people as possible; however, texts often contain complex words that hinder reading comprehension and accessibility. Therefore, suggesting simpler alternatives for complex words without compromising meaning would help convey the information to a broader audience. This paper proposes mTLS, a multilingual controllable Transformer-based Lexical Simplification (LS) system fined-tuned with the T5 model. The novelty of this work lies in the use of language-specific prefixes, control tokens, and candidates extracted from pre-trained masked language models to learn simpler alternatives for complex words. The evaluation results on three well-known LS datasets -- LexMTurk, BenchLS, and NNSEval -- show that our model outperforms the previous state-of-the-art models like LSBert and ConLS. Moreover, further evaluation of our approach on the part of the recent TSAR-2022 multilingual LS shared-task dataset shows that our model performs competitively when compared with the participating systems for English LS and even outperforms the GPT-3 model on several metrics. Moreover, our model obtains performance gains also for Spanish and Portuguese.
Abstract（参考訳）: テキストは、最もユビキタスな知識と情報ソースであり、できるだけ多くの人に簡単にアクセスできるようにすべきであるが、テキストには、理解とアクセシビリティを阻害する複雑な単語が含まれていることが多い。したがって、複雑な単語に対するより単純な選択肢を提案することは、より広い聴衆に情報を伝えるのに役立つ。本稿では,多言語制御可能なトランスフォーマーを用いたLexical Simplification(LS)システムであるmTLSを提案する。この研究の新規性は、複雑な単語のより単純な代替法を学ぶために、事前訓練されたマスキング言語モデルから抽出された言語固有の接頭辞、制御トークン、および候補を使用することにある。 LexMTurk、BenchLS、NNSEvalの3つのよく知られたLSデータセットの評価結果は、我々のモデルがLSBertやConLSといった従来の最先端モデルよりも優れていることを示している。さらに,最近のtsar-2022多言語ls共有タスクデータセットにおける本手法のさらなる評価により,本モデルが英語lsの学習システムと比較した場合,いくつかの指標でgpt-3モデルを上回る性能を示した。さらに,本モデルではスペイン語とポルトガル語のパフォーマンスも向上する。

関連論文リスト

Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文参考訳（メタデータ） (2024-10-26T00:39:44Z)
ConVerSum: A Contrastive Learning-based Approach for Data-Scarce Solution of Cross-Lingual Summarization Beyond Direct Equivalents [4.029675201787349]
言語間の要約は自然言語処理の洗練された分野である。高品質なCLSデータがない場合、CLSには実現可能な解決策がない。コントラスト学習のパワーを活かしたCLSのための新しいデータ効率のアプローチであるConVerSumを提案する。
論文参考訳（メタデータ） (2024-08-17T19:03:53Z)
Shortcomings of LLMs for Low-Resource Translation: Retrieval and Understanding are Both the Problem [4.830018386227]
本研究では,機械翻訳パイプラインの自動化の一環として,事前学習された大言語モデル(LLM)が低リソース言語から高リソース言語への翻訳を指示する際の文脈内学習能力について検討する。我々は南ケチュアをスペイン語に翻訳する一連の実験を行い、デジタル化された教育材料と平行コーパスの制約されたデータベースから得られた様々な種類の文脈の情報量について検討する。
論文参考訳（メタデータ） (2024-06-21T20:02:22Z)
TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文参考訳（メタデータ） (2024-05-16T09:08:09Z)
TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。本手法は,様々なベンチマーク上での局所モデル性能を向上させる。また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文参考訳（メタデータ） (2024-03-15T14:36:38Z)
MultiLS: A Multi-task Lexical Simplification Framework [21.81108113189197]
マルチタスクLSデータセットの作成を可能にする最初のLSフレームワークであるMultiLSを提案する。また,MultiLSフレームワークを用いた最初のデータセットであるMultiLS-PTを提案する。
論文参考訳（メタデータ） (2024-02-22T21:16:18Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
Zero-Shot Cross-Lingual Summarization via Large Language Models [108.30673793281987]
言語間要約(CLS)は、異なる対象言語で要約を生成する。近年のLarge Language Models (LLMs) の出現は、計算言語学コミュニティから広く注目を集めている。本稿では,異なるパラダイムからゼロショットCLSを実行するために,LSMを誘導するために様々なプロンプトを経験的に使用した。
論文参考訳（メタデータ） (2023-02-28T01:27:37Z)
Controllable Lexical Simplification for English [3.994126642748072]
本稿では,T5を微調整した制御可能な語彙単純化システムを提案する。我々のモデルはLSBertに匹敵する性能を示し、場合によってはそれよりも優れています。
論文参考訳（メタデータ） (2023-02-06T16:09:27Z)
ALEXSIS-PT: A New Resource for Portuguese Lexical Simplification [17.101023503289856]
ALEXSIS-PTは、387の複雑な単語に対する9,605の候補置換を含むブラジルポルトガル語LSのための新しい多候補データセットである。本データセットでは,mDistilBERT,mBERT,XLM-R,BERTimbauの4つの代用生成モデルを評価する。
論文参考訳（メタデータ） (2022-09-19T14:10:21Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。