論文の概要: Combining Neural Language Models for WordSense Induction
- arxiv url: http://arxiv.org/abs/2006.13200v1
- Date: Tue, 23 Jun 2020 17:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:00:08.192930
- Title: Combining Neural Language Models for WordSense Induction
- Title(参考訳): 単語インダクションのためのニューラルネットワークモデルの組み合わせ
- Authors: Nikolay Arefyev, Boris Sheludko, and Tatiana Aleksashina
- Abstract要約: 単語感覚誘導(WSI)は、この単語の表現された感覚に応じて曖昧な単語の発生をグループ化する問題である。
近年,この課題に対する新たなアプローチが提案され,特定の文脈におけるあいまいな単語の代用となる可能性が示唆された。
本研究では、このアプローチをロシア語に適用し、2つの方法で改善する。
- 参考スコア(独自算出の注目度): 0.5199765487172326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word sense induction (WSI) is the problem of grouping occurrences of an
ambiguous word according to the expressed sense of this word. Recently a new
approach to this task was proposed, which generates possible substitutes for
the ambiguous word in a particular context using neural language models, and
then clusters sparse bag-of-words vectors built from these substitutes. In this
work, we apply this approach to the Russian language and improve it in two
ways. First, we propose methods of combining left and right contexts, resulting
in better substitutes generated. Second, instead of fixed number of clusters
for all ambiguous words we propose a technique for selecting individual number
of clusters for each word. Our approach established new state-of-the-art level,
improving current best results of WSI for the Russian language on two RUSSE
2018 datasets by a large margin.
- Abstract(参考訳): 単語感覚誘導(WSI)は、この単語の表現された感覚に応じて曖昧な単語の発生をグループ化する問題である。
最近、ニューラルネットワークモデルを用いて、特定の文脈における曖昧な単語の代用品を生成できる新しいアプローチが提案され、これらの代用品から構築された単語の空白ベクトルをクラスタ化する。
本研究では、このアプローチをロシア語に適用し、2つの方法で改善する。
まず、左右のコンテキストを結合し、より良い置換を生成する方法を提案する。
第2に,不明瞭な単語のクラスタ数を固定する代わりに,各単語に対して個々のクラスタ数を選択する手法を提案する。
我々のアプローチは新たな最先端レベルを確立し、ロシアの2つのRASE 2018データセットにおけるWSIの現在の最良の結果を大きく改善しました。
関連論文リスト
- Graph-based Clustering for Detecting Semantic Change Across Time and
Languages [10.058655884092094]
本稿では,高頻度・低周波両方の単語知覚におけるニュアンス変化を時間的・言語的に捉えたグラフベースのクラスタリング手法を提案する。
提案手法は,4言語にわたるSemEval 2020バイナリ分類タスクにおいて,従来のアプローチを大幅に上回っている。
論文 参考訳(メタデータ) (2024-02-01T21:27:19Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Word Sense Induction with Hierarchical Clustering and Mutual Information
Maximization [14.997937028599255]
単語知覚誘導は自然言語処理において難しい問題である。
階層的クラスタリングと不変情報クラスタリングに基づく新しい教師なし手法を提案する。
我々は、ある場合において、我々のアプローチが先行したWSIの最先端手法よりも優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-11T13:04:06Z) - Always Keep your Target in Mind: Studying Semantics and Improving
Performance of Neural Lexical Substitution [124.99894592871385]
本稿では,従来の言語モデルと最近の言語モデルの両方を用いた語彙置換手法の大規模比較研究を行う。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによるすでに競合する結果がさらに大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-06-07T16:16:19Z) - Language models in word sense disambiguation for Polish [0.0]
ニューラル言語モデルを用いて、あいまいな単語と同じような単語を予測する。
これらの単語に基づいて,単語知覚の分割を異なる方法で予測する。
論文 参考訳(メタデータ) (2021-11-27T20:47:53Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。