論文の概要: Unsupervised Lexical Substitution with Decontextualised Embeddings
- arxiv url: http://arxiv.org/abs/2209.08236v1
- Date: Sat, 17 Sep 2022 03:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 16:07:00.743988
- Title: Unsupervised Lexical Substitution with Decontextualised Embeddings
- Title(参考訳): Decontextualized Embeddings を用いた教師なし語彙置換
- Authors: Takashi Wada, Timothy Baldwin, Yuji Matsumoto, Jey Han Lau
- Abstract要約: 事前学習された言語モデルを用いた語彙置換の新しい教師なし手法を提案する。
本手法は,文脈的および非文脈的単語埋め込みの類似性に基づいて代用語を検索する。
我々は、英語とイタリア語で実験を行い、我々の手法が強いベースラインを大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 48.00929769805882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new unsupervised method for lexical substitution using
pre-trained language models. Compared to previous approaches that use the
generative capability of language models to predict substitutes, our method
retrieves substitutes based on the similarity of contextualised and
decontextualised word embeddings, i.e. the average contextual representation of
a word in multiple contexts. We conduct experiments in English and Italian, and
show that our method substantially outperforms strong baselines and establishes
a new state-of-the-art without any explicit supervision or fine-tuning. We
further show that our method performs particularly well at predicting
low-frequency substitutes, and also generates a diverse list of substitute
candidates, reducing morphophonetic or morphosyntactic biases induced by
article-noun agreement.
- Abstract(参考訳): 事前学習された言語モデルを用いた語彙置換の新しい教師なし手法を提案する。
代用単語の予測に言語モデルの生成能力を用いた従来の手法と比較して,複数の文脈における単語の平均的文脈表現という文脈的および非文脈的単語埋め込みの類似性に基づいて代用単語を検索する。
我々は英語とイタリア語で実験を行い、我々の手法が強いベースラインを大幅に上回り、明示的な監督や微調整なしに新しい最先端技術を確立することを示す。
さらに,本手法は低周波代用音の予測において特に有効であり,また代用音素候補の多種多様なリストを生成し,記事・名詞の一致による形態素的・形態素的バイアスを低減する。
関連論文リスト
- Unsupervised Lexical Simplification with Context Augmentation [55.318201742039]
対象単語とその文脈が与えられた場合、対象コンテキストと単言語データからサンプル化した追加コンテキストに基づいて置換語を生成する。
我々は、TSAR-2022共有タスクにおいて、英語、ポルトガル語、スペイン語で実験を行い、我々のモデルは、すべての言語で、他の教師なしシステムよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-11-01T05:48:05Z) - ParaLS: Lexical Substitution via Pretrained Paraphraser [18.929859707202517]
本研究では,代用候補をパラフラザーから生成する方法を検討する。
本稿では,デコード中の対象単語の変動に着目した2つの簡単なデコード戦略を提案する。
論文 参考訳(メタデータ) (2023-05-14T12:49:16Z) - Contextualized language models for semantic change detection: lessons
learned [4.436724861363513]
本稿では,ダイアクロニック・セマンティック・チェンジを検出する文脈的埋め込みに基づく手法の出力の質的分析を行う。
本研究の結果から,文脈化手法は,実際のダイアクロニック・セマンティック・シフトを行なわない単語に対して,高い変化スコアを予測できることが示唆された。
我々の結論は、事前学習された文脈化言語モデルは、語彙感覚の変化と文脈分散の変化を補う傾向にあるということである。
論文 参考訳(メタデータ) (2022-08-31T23:35:24Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Obtaining Better Static Word Embeddings Using Contextual Embedding
Models [53.86080627007695]
提案手法はCBOWをベースとした簡易な蒸留法である。
副作用として、我々の手法は文脈的および静的な埋め込みの公正な比較を可能にする。
論文 参考訳(メタデータ) (2021-06-08T12:59:32Z) - Denoising Word Embeddings by Averaging in a Shared Space [34.175826109538676]
単語埋め込みの品質を円滑にし,改善するための新しい手法を提案する。
一般化プロクリスト解析(GPA)手法の効率的な実装を用いて,すべてのモデルを共有ベクトル空間に投影する。
新しい表現はより安定し信頼性が高いため、稀な単語評価において顕著な改善がある。
論文 参考訳(メタデータ) (2021-06-05T19:49:02Z) - Unsupervised Word Translation Pairing using Refinement based Point Set
Registration [8.568050813210823]
単語埋め込みの言語間アライメントは、言語間の知識伝達において重要な役割を果たす。
現在の教師なしのアプローチは、言語にまたがる単語埋め込み空間の幾何学的構造における類似性に依存している。
本稿では,バイリンガル単語の共有ベクトル空間への埋め込みを教師なしでマッピングするBioSpereを提案する。
論文 参考訳(メタデータ) (2020-11-26T09:51:29Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Analysing Lexical Semantic Change with Contextualised Word
Representations [7.071298726856781]
本稿では,BERTニューラルネットワークモデルを用いて単語使用率の表現を求める手法を提案する。
我々は新しい評価データセットを作成し、モデル表現と検出された意味変化が人間の判断と正に相関していることを示す。
論文 参考訳(メタデータ) (2020-04-29T12:18:14Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。