論文の概要: Large Scale Substitution-based Word Sense Induction
- arxiv url: http://arxiv.org/abs/2110.07681v1
- Date: Thu, 14 Oct 2021 19:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:17:03.365818
- Title: Large Scale Substitution-based Word Sense Induction
- Title(参考訳): 大規模置換型単語感覚誘導
- Authors: Matan Eyal, Shoval Sadde, Hillel Taub-Tabib, Yoav Goldberg
- Abstract要約: 本稿では,事前学習されたマスキング言語モデル(MLM)に基づく単語センス誘導手法を提案する。
その結果、コーパス由来の感覚インベントリに基づいて感覚タグ付けされ、各感覚が指示語に関連付けられているコーパスとなる。
本手法を用いた英語ウィキペディアの評価では,Babelfy などの WSD 手法と比較しても,誘導された感覚とインスタンスごとの感覚代入の両方が高品質であることがわかった。
- 参考スコア(独自算出の注目度): 48.49573297876054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a word-sense induction method based on pre-trained masked language
models (MLMs), which can cheaply scale to large vocabularies and large corpora.
The result is a corpus which is sense-tagged according to a corpus-derived
sense inventory and where each sense is associated with indicative words.
Evaluation on English Wikipedia that was sense-tagged using our method shows
that both the induced senses, and the per-instance sense assignment, are of
high quality even compared to WSD methods, such as Babelfy. Furthermore, by
training a static word embeddings algorithm on the sense-tagged corpus, we
obtain high-quality static senseful embeddings. These outperform existing
senseful embeddings techniques on the WiC dataset and on a new outlier
detection dataset we developed. The data driven nature of the algorithm allows
to induce corpora-specific senses, which may not appear in standard sense
inventories, as we demonstrate using a case study on the scientific domain.
- Abstract(参考訳): 本稿では,事前学習されたマスキング言語モデル(MLM)に基づく単語センス誘導手法を提案する。
その結果、コーパス由来のセンスインベントリに従ってセンスタグ付けされ、各センスが指示語に関連付けられるコーパスとなる。
本手法を用いた英語ウィキペディアの評価では,Babelfy などの WSD 手法と比較しても,誘導された感覚とインスタンスごとの感覚代入の両方が高品質であることがわかった。
さらに、センスタグ付きコーパスに静的単語埋め込みアルゴリズムをトレーニングすることにより、高品質な静的意味埋め込みを得る。
既存のsenseful embeddedsテクニックをwicデータセットと、我々が開発した新しいoutlier detectionデータセットに上回っている。
このアルゴリズムのデータ駆動の性質は、科学領域のケーススタディを用いて示すように、標準的な感覚の在庫には現れないコーパス特有の感覚を誘導することができる。
関連論文リスト
- Semantic Specialization for Knowledge-based Word Sense Disambiguation [12.573927420408365]
知識に基づくWord Sense Disambiguation (WSD) のための有望なアプローチは、ある文中の対象語に対して計算された単語に最も近い文脈的埋め込みを持つ感覚を選択することである。
本稿では,文脈適応型埋め込みを語彙知識のみを用いてWSDタスクに適応させるWSDのセマンティック・スペシャライゼーションを提案する。
論文 参考訳(メタデータ) (2023-04-22T07:40:23Z) - Word Sense Induction with Knowledge Distillation from BERT [6.88247391730482]
本稿では、文脈における単語の感覚に注意を払って、事前学習された言語モデル(BERT)から複数の単語感覚を抽出する手法を提案する。
文脈的単語類似性および感覚誘導タスクの実験は、この手法が最先端のマルチセンス埋め込みよりも優れているか、あるいは競合していることを示している。
論文 参考訳(メタデータ) (2023-04-20T21:05:35Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - Learning Sense-Specific Static Embeddings using Contextualised Word
Embeddings as a Proxy [26.385418377513332]
感覚の文脈導出埋め込み(CDES)を提案する。
CDESは文脈的埋め込みから感覚関連情報を抽出し、それを静的埋め込みに注入し、センス固有の静的埋め込みを生成する。
本報告では,CDESが,現在の最先端感埋め込みに匹敵する性能を示す,感覚特異的な静的埋め込みを正確に学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-05T17:50:48Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - SensPick: Sense Picking for Word Sense Disambiguation [1.1429576742016154]
我々は,対象単語の文脈情報と関連する光沢情報の両方を用いて,単語とグルースの集合間の意味的関係をモデル化する。
We propose SensPick, a type of stacked bidirectional Long Short Term Memory (LSTM) network to perform the WSD task。
論文 参考訳(メタデータ) (2021-02-10T04:52:42Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Moving Down the Long Tail of Word Sense Disambiguation with
Gloss-Informed Biencoders [79.38278330678965]
Word Sense Disambiguation (WSD)の主な障害は、単語感覚が均一に分散されないことである。
本稿では,(1)対象語とその周囲の文脈を独立に埋め込んだバイエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-05-06T04:21:45Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。