論文の概要: Don't Neglect the Obvious: On the Role of Unambiguous Words in Word
Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2004.14325v3
- Date: Fri, 23 Oct 2020 09:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:51:23.151243
- Title: Don't Neglect the Obvious: On the Role of Unambiguous Words in Word
Sense Disambiguation
- Title(参考訳): 疑わしい言葉を無視しない:単語センスの曖昧さにおける曖昧な言葉の役割について
- Authors: Daniel Loureiro and Jose Camacho-Collados
- Abstract要約: 本稿では,現在最先端の伝搬モデルを用いて,単語知覚埋め込みのカバレッジと品質を拡張できることを示す。
UWA(Unambiguous Word s)データセットを導入し、最先端の伝搬モデルを用いて単語感覚埋め込みのカバレッジと品質を拡張する方法を示す。
- 参考スコア(独自算出の注目度): 5.8523859781812435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art methods for Word Sense Disambiguation (WSD) combine two
different features: the power of pre-trained language models and a propagation
method to extend the coverage of such models. This propagation is needed as
current sense-annotated corpora lack coverage of many instances in the
underlying sense inventory (usually WordNet). At the same time, unambiguous
words make for a large portion of all words in WordNet, while being poorly
covered in existing sense-annotated corpora. In this paper, we propose a simple
method to provide annotations for most unambiguous words in a large corpus. We
introduce the UWA (Unambiguous Word Annotations) dataset and show how a
state-of-the-art propagation-based model can use it to extend the coverage and
quality of its word sense embeddings by a significant margin, improving on its
original results on WSD.
- Abstract(参考訳): Word Sense Disambiguation (WSD)の最先端の手法は、事前訓練された言語モデルのパワーと、そのようなモデルのカバレッジを拡張するための伝搬方法の2つの異なる特徴を組み合わせたものである。
この伝搬は、現在のセンスアノテートコーパスは、基礎となるセンスインベントリ(通常WordNet)の多くのインスタンスをカバーしていないため必要である。
同時に、不明瞭な単語はWordNetのすべての単語の大部分を占め、既存の感覚注釈コーパスではカバーされていない。
本稿では,大コーパス内の不明瞭な単語に対してアノテーションを提供するための簡易な手法を提案する。
私たちは、uwa(unmbiguous word annotations)データセットを紹介し、最先端の伝搬ベースモデルが、そのword sense埋め込みのカバレッジと品質をかなりのマージンで拡張し、wsdのオリジナル結果を改善した方法を示します。
関連論文リスト
- Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Lost in Context? On the Sense-wise Variance of Contextualized Word
Embeddings [11.475144702935568]
各単語感覚の文脈的埋め込みが、典型的な事前学習モデルにおける文脈によってどの程度異なるかを定量化する。
単語表現は位置バイアスを受けており、異なる文脈における最初の単語はより類似する傾向にある。
論文 参考訳(メタデータ) (2022-08-20T12:27:25Z) - Chinese Word Sense Embedding with SememeWSD and Synonym Set [17.37973450772783]
本稿では,多文単語のすべての感覚に異なるベクトルを割り当てるために,SememeWSD Synonym(SWSDS)モデルを提案する。
OpenHowNetから単語センスの上位10の同義語を取得し、単語センスのベクトルとして同義語の平均ベクトルを算出する。
実験では,Gensimのwmdistance法を用いて意味的類似性計算におけるSWSDSモデルの評価を行った。
論文 参考訳(メタデータ) (2022-06-29T03:42:03Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Moving Down the Long Tail of Word Sense Disambiguation with
Gloss-Informed Biencoders [79.38278330678965]
Word Sense Disambiguation (WSD)の主な障害は、単語感覚が均一に分散されないことである。
本稿では,(1)対象語とその周囲の文脈を独立に埋め込んだバイエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-05-06T04:21:45Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。