論文の概要: Chinese Word Sense Embedding with SememeWSD and Synonym Set
- arxiv url: http://arxiv.org/abs/2206.14388v1
- Date: Wed, 29 Jun 2022 03:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 20:01:27.423730
- Title: Chinese Word Sense Embedding with SememeWSD and Synonym Set
- Title(参考訳): SememeWSDとSynonym Setを組み込んだ中国語の単語センス
- Authors: Yangxi Zhou, Junping Du, Zhe Xue, Ang Li, Zeli Guan
- Abstract要約: 本稿では,多文単語のすべての感覚に異なるベクトルを割り当てるために,SememeWSD Synonym(SWSDS)モデルを提案する。
OpenHowNetから単語センスの上位10の同義語を取得し、単語センスのベクトルとして同義語の平均ベクトルを算出する。
実験では,Gensimのwmdistance法を用いて意味的類似性計算におけるSWSDSモデルの評価を行った。
- 参考スコア(独自算出の注目度): 17.37973450772783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word embedding is a fundamental natural language processing task which can
learn feature of words. However, most word embedding methods assign only one
vector to a word, even if polysemous words have multi-senses. To address this
limitation, we propose SememeWSD Synonym (SWSDS) model to assign a different
vector to every sense of polysemous words with the help of word sense
disambiguation (WSD) and synonym set in OpenHowNet. We use the SememeWSD model,
an unsupervised word sense disambiguation model based on OpenHowNet, to do word
sense disambiguation and annotate the polysemous word with sense id. Then, we
obtain top 10 synonyms of the word sense from OpenHowNet and calculate the
average vector of synonyms as the vector of the word sense. In experiments, We
evaluate the SWSDS model on semantic similarity calculation with Gensim's
wmdistance method. It achieves improvement of accuracy. We also examine the
SememeWSD model on different BERT models to find the more effective model.
- Abstract(参考訳): 単語の埋め込みは、単語の特徴を学習できる基本自然言語処理タスクである。
しかし、ほとんどの単語埋め込み手法は、多文語がマルチセンスであっても、1つのベクトルのみを単語に割り当てる。
この制限に対処するために, 単語感覚の曖昧さ (WSD) と OpenHowNet の同義語セットの助けを借りて, 多文単語のすべての感覚に異なるベクトルを割り当てるためのSememeWSD Synonym (SWSDS) モデルを提案する。
我々は,openhownetに基づく教師なしの単語センス曖昧化モデルであるsememewsdモデルを用いて,単語センス曖昧化を行い,その多義語をセンスidでアノテートする。
そして、OpenHowNetから単語センスの上位10の同義語を取得し、単語センスのベクトルとして同義語の平均ベクトルを算出する。
実験では,Gensimのwmdistance法を用いて意味的類似性計算におけるSWSDSモデルの評価を行った。
精度の向上を実現している。
また、異なるbertモデル上のsememewsdモデルを調べ、より効果的なモデルを見つける。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Leveraging multilingual transfer for unsupervised semantic acoustic word
embeddings [23.822788597966646]
音響単語埋め込み(AWEs)は、音声の内容を符号化する音声セグメントの固定次元ベクトル表現である。
本稿ではセマンティックAWEモデリングについて考察する。
AWEがダウンストリームのセマンティッククエリ・バイ・サンプル検索に使用できることを初めて示します。
論文 参考訳(メタデータ) (2023-07-05T07:46:54Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - WOVe: Incorporating Word Order in GloVe Word Embeddings [0.0]
単語をベクトルとして定義することで、機械学習アルゴリズムがテキストを理解し、そこから情報を抽出しやすくなります。
ワードベクトル表現は、単語同義語、単語類似、構文解析など、多くのアプリケーションで使われている。
論文 参考訳(メタデータ) (2021-05-18T15:28:20Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Don't Neglect the Obvious: On the Role of Unambiguous Words in Word
Sense Disambiguation [5.8523859781812435]
本稿では,現在最先端の伝搬モデルを用いて,単語知覚埋め込みのカバレッジと品質を拡張できることを示す。
UWA(Unambiguous Word s)データセットを導入し、最先端の伝搬モデルを用いて単語感覚埋め込みのカバレッジと品質を拡張する方法を示す。
論文 参考訳(メタデータ) (2020-04-29T16:51:21Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。