論文の概要: Unsupervised Lexical Simplification with Context Augmentation
- arxiv url: http://arxiv.org/abs/2311.00310v1
- Date: Wed, 1 Nov 2023 05:48:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 14:46:52.735824
- Title: Unsupervised Lexical Simplification with Context Augmentation
- Title(参考訳): 文脈拡張による教師なし語彙単純化
- Authors: Takashi Wada, Timothy Baldwin, Jey Han Lau
- Abstract要約: 対象単語とその文脈が与えられた場合、対象コンテキストと単言語データからサンプル化した追加コンテキストに基づいて置換語を生成する。
我々は、TSAR-2022共有タスクにおいて、英語、ポルトガル語、スペイン語で実験を行い、我々のモデルは、すべての言語で、他の教師なしシステムよりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 55.318201742039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new unsupervised lexical simplification method that uses only
monolingual data and pre-trained language models. Given a target word and its
context, our method generates substitutes based on the target context and also
additional contexts sampled from monolingual data. We conduct experiments in
English, Portuguese, and Spanish on the TSAR-2022 shared task, and show that
our model substantially outperforms other unsupervised systems across all
languages. We also establish a new state-of-the-art by ensembling our model
with GPT-3.5. Lastly, we evaluate our model on the SWORDS lexical substitution
data set, achieving a state-of-the-art result.
- Abstract(参考訳): 本稿では,モノリンガルデータと事前学習言語モデルのみを用いた教師なし語彙単純化手法を提案する。
対象単語とその文脈が与えられた場合、対象コンテキストと単言語データからサンプル化した追加コンテキストに基づいて置換語を生成する。
我々は、tsar-2022共有タスクについて英語、ポルトガル語、スペイン語で実験を行い、我々のモデルが全ての言語で教師なしシステムを大きく上回ることを示した。
我々はまた、GPT-3.5でモデルを組み立てることで、新しい最先端技術を確立する。
最後に, SWORDSの語彙置換データセット上でのモデルの評価を行い, 最先端の結果を得た。
関連論文リスト
- OCHADAI at SemEval-2022 Task 2: Adversarial Training for Multilingual
Idiomaticity Detection [4.111899441919165]
文が慣用的表現を含むか否かを判定する多言語逆行訓練モデルを提案する。
我々のモデルは、異なる多言語変換言語モデルからの事前学習された文脈表現に依存している。
論文 参考訳(メタデータ) (2022-06-07T05:52:43Z) - Injecting Text and Cross-lingual Supervision in Few-shot Learning from
Self-Supervised Models [33.66135770490531]
新しい言語への自己教師付き表現の伝達を改善するために,音声集合音響モデルが言語間監督を活用する方法を示す。
また、格子フリーの最大相互情報目標を用いた微調整を実現するために、ターゲット言語テキストをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2021-10-10T17:33:44Z) - Neural semi-Markov CRF for Monolingual Word Alignment [20.897157172049877]
可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。
また、人間のアノテーションによる新しいベンチマークを作成し、4つの異なるテキストジャンルをカバーし、モノリンガルな単語アライメントモデルを評価する。
論文 参考訳(メタデータ) (2021-06-04T16:04:00Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。