論文の概要: Multilingual Lexical Simplification via Paraphrase Generation
- arxiv url: http://arxiv.org/abs/2307.15286v1
- Date: Fri, 28 Jul 2023 03:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 13:53:09.602188
- Title: Multilingual Lexical Simplification via Paraphrase Generation
- Title(参考訳): パラフレーズ生成による多言語語彙の単純化
- Authors: Kang Liu, Jipeng Qiang, Yun Li, Yunhao Yuan, Yi Zhu, Kaixun Hua
- Abstract要約: パラフレーズ生成による新しい多言語LS法を提案する。
パラフレーズ処理は多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。
提案手法は,英語,スペイン語,ポルトガル語で,BERT法とゼロショットGPT3法を大きく上回る。
- 参考スコア(独自算出の注目度): 19.275642346073557
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Lexical simplification (LS) methods based on pretrained language models have
made remarkable progress, generating potential substitutes for a complex word
through analysis of its contextual surroundings. However, these methods require
separate pretrained models for different languages and disregard the
preservation of sentence meaning. In this paper, we propose a novel
multilingual LS method via paraphrase generation, as paraphrases provide
diversity in word selection while preserving the sentence's meaning. We regard
paraphrasing as a zero-shot translation task within multilingual neural machine
translation that supports hundreds of languages. After feeding the input
sentence into the encoder of paraphrase modeling, we generate the substitutes
based on a novel decoding strategy that concentrates solely on the lexical
variations of the complex word. Experimental results demonstrate that our
approach surpasses BERT-based methods and zero-shot GPT3-based method
significantly on English, Spanish, and Portuguese.
- Abstract(参考訳): 事前学習された言語モデルに基づく語彙単純化(ls)手法は著しく進歩し、文脈的環境の分析によって複雑な単語の代替となる可能性がある。
しかし、これらの方法は異なる言語に対する個別の事前訓練モデルを必要とし、文の意味の保存を無視する。
本稿では,パラフレーズが文の意味を維持しながら単語選択の多様性を提供するため,パラフレーズ生成による多言語ls法を提案する。
パラフレーズ処理は、数百の言語をサポートする多言語ニューラルマシン翻訳におけるゼロショット翻訳タスクとみなす。
入力文をパラフレーズモデリングのエンコーダに入力した後、複雑な単語の語彙変化にのみ焦点を絞った新しいデコード戦略に基づいて置換語を生成する。
実験の結果,本手法は英語,スペイン語,ポルトガル語で,BERT法およびゼロショットGPT3法をはるかに上回ることがわかった。
関連論文リスト
- ParaLS: Lexical Substitution via Pretrained Paraphraser [18.929859707202517]
本研究では,代用候補をパラフラザーから生成する方法を検討する。
本稿では,デコード中の対象単語の変動に着目した2つの簡単なデコード戦略を提案する。
論文 参考訳(メタデータ) (2023-05-14T12:49:16Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Retrieval-Augmented Multilingual Keyphrase Generation with
Retriever-Generator Iterative Training [66.64843711515341]
キーフレーズ生成は、長いテキストが与えられたキーフレーズを自動的に予測するタスクである。
我々は多言語キーフレーズ生成という新しい設定に注意を払っている。
非英語言語におけるデータ不足問題を軽減するために,多言語キーフレーズ生成のための検索拡張手法を提案する。
論文 参考訳(メタデータ) (2022-05-21T00:45:21Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Improving the Diversity of Unsupervised Paraphrasing with Embedding
Outputs [28.16894664889912]
ゼロショットパラフレーズ生成のための新しい手法を提案する。
主な貢献は、翻訳された並列コーパスを用いて訓練されたエンドツーエンドの多言語パラフレーズモデルである。
論文 参考訳(メタデータ) (2021-10-25T19:33:38Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Chinese Lexical Simplification [29.464388721085548]
中国の語彙単純化(CLS)に関する研究は行われていない。
アノテーション取得の難しさを回避するため,我々はCLSの最初のベンチマークデータセットを手作業で作成する。
複雑な単語の代用候補を生成するために,5種類のメソッドをベースラインとして提示する。
論文 参考訳(メタデータ) (2020-10-14T12:55:36Z) - Paraphrase Generation as Zero-Shot Multilingual Translation:
Disentangling Semantic Similarity from Lexical and Syntactic Diversity [11.564158965143418]
本稿では,入力に含まれるn-gramの生成を阻害する単純なパラフレーズ生成アルゴリズムを提案する。
一つの多言語NMTモデルから多くの言語でパラフレーズ生成が可能となる。
論文 参考訳(メタデータ) (2020-08-11T18:05:34Z) - Multilingual Chart-based Constituency Parse Extraction from Pre-trained
Language Models [21.2879567125422]
本稿では,事前学習した言語モデルから完全(バイナリ)構文を抽出する手法を提案する。
本手法を多言語 PLM に適用することにより,9つの言語から文に対する非自明なパースを導き出すことができる。
論文 参考訳(メタデータ) (2020-04-08T05:42:26Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。