論文の概要: Word Sense Disambiguation for 158 Languages using Word Embeddings Only
- arxiv url: http://arxiv.org/abs/2003.06651v1
- Date: Sat, 14 Mar 2020 14:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 20:11:17.785251
- Title: Word Sense Disambiguation for 158 Languages using Word Embeddings Only
- Title(参考訳): 単語埋め込みのみを用いた158言語における単語センスの曖昧化
- Authors: Varvara Logacheva and Denis Teslenko and Artem Shelmanov and Steffen
Remus and Dmitry Ustalov and Andrey Kutuzov and Ekaterina Artemova and Chris
Biemann and Simone Paolo Ponzetto and Alexander Panchenko
- Abstract要約: 文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
- 参考スコア(独自算出の注目度): 80.79437083582643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disambiguation of word senses in context is easy for humans, but is a major
challenge for automatic approaches. Sophisticated supervised and
knowledge-based models were developed to solve this task. However, (i) the
inherent Zipfian distribution of supervised training instances for a given word
and/or (ii) the quality of linguistic knowledge representations motivate the
development of completely unsupervised and knowledge-free approaches to word
sense disambiguation (WSD). They are particularly useful for under-resourced
languages which do not have any resources for building either supervised and/or
knowledge-based models. In this paper, we present a method that takes as input
a standard pre-trained word embedding model and induces a fully-fledged word
sense inventory, which can be used for disambiguation in context. We use this
method to induce a collection of sense inventories for 158 languages on the
basis of the original pre-trained fastText word embeddings by Grave et al.
(2018), enabling WSD in these languages. Models and system are available
online.
- Abstract(参考訳): 文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
この課題を解決するために、高度に教師付きおよび知識に基づくモデルが開発された。
しかし、
i) 所定の単語及び/又はに対する教師付き訓練インスタンスの固有なZipfian分布
(ii)言語知識表現の質は、単語感覚曖昧化(wsd)に対する完全に教師なしで知識のないアプローチの開発を動機付ける。
教師付きおよび/または知識ベースのモデルを構築するためのリソースを持たない、非リソースの言語で特に有用である。
本稿では,標準の事前学習された単語埋め込みモデルを入力し,文脈の曖昧さ解消に使用可能な単語センスインベントリを誘導する手法を提案する。
我々はこの手法を用いて,Graveらによるトレーニング済みのfastText単語の埋め込み(2018年)に基づいて,158言語に対するセンスインベントリのコレクションを誘導し,これらの言語でWSDを実現する。
モデルとシステムはオンラインで入手できる。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Word Sense Induction with Knowledge Distillation from BERT [6.88247391730482]
本稿では、文脈における単語の感覚に注意を払って、事前学習された言語モデル(BERT)から複数の単語感覚を抽出する手法を提案する。
文脈的単語類似性および感覚誘導タスクの実験は、この手法が最先端のマルチセンス埋め込みよりも優れているか、あるいは競合していることを示している。
論文 参考訳(メタデータ) (2023-04-20T21:05:35Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Augmenting semantic lexicons using word embeddings and transfer learning [1.101002667958165]
本稿では,単語埋め込みと伝達学習を用いて,感情スコアを比較的低コストで拡張するための2つのモデルを提案する。
評価の結果、両モデルともAmazon Mechanical Turkのレビュアーと同様の精度で新しい単語を採点できるが、コストはごくわずかである。
論文 参考訳(メタデータ) (2021-09-18T20:59:52Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - MICE: Mining Idioms with Contextual Embeddings [0.0]
MICEatic式は自然言語処理アプリケーションでは問題となることがある。
我々は,その目的のためにコンテキスト埋め込みを利用するアプローチを提案する。
両埋め込みを用いたディープニューラルネットワークは,既存のアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-13T08:56:40Z) - Don't Neglect the Obvious: On the Role of Unambiguous Words in Word
Sense Disambiguation [5.8523859781812435]
本稿では,現在最先端の伝搬モデルを用いて,単語知覚埋め込みのカバレッジと品質を拡張できることを示す。
UWA(Unambiguous Word s)データセットを導入し、最先端の伝搬モデルを用いて単語感覚埋め込みのカバレッジと品質を拡張する方法を示す。
論文 参考訳(メタデータ) (2020-04-29T16:51:21Z) - Semantic Relatedness for Keyword Disambiguation: Exploiting Different
Embeddings [0.0]
本稿では,学習時に未知の外部インベントリ(オントロジー)によって提供される単語と感覚間の意味的関連性に基づくキーワードの曖昧さに対するアプローチを提案する。
実験の結果,特定のドメインをトレーニングすることなく,単語センスの曖昧さ (WSD) を適用した場合に,この手法が技術状況に匹敵する結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-25T16:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。