論文の概要: Homonymy Information for English WordNet
- arxiv url: http://arxiv.org/abs/2212.08388v1
- Date: Fri, 16 Dec 2022 10:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:22:45.797985
- Title: Homonymy Information for English WordNet
- Title(参考訳): 英語WordNetのためのHomonymy情報
- Authors: Rowan Hall Maudslay and Simone Teufel
- Abstract要約: 我々は、最近の言語モデリングの進歩を利用して、プリンストンWordNetのホモニミーアノテーションを合成する。
変換器モデルにより生成された埋め込み空間における近接性に基づく定義をペア化する。
このアプローチの単純さにもかかわらず、私たちの最良のモデルは、アノテートした評価セットで.97のF1を達成する。
- 参考スコア(独自算出の注目度): 9.860944032009847
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A widely acknowledged shortcoming of WordNet is that it lacks a distinction
between word meanings which are systematically related (polysemy), and those
which are coincidental (homonymy). Several previous works have attempted to
fill this gap, by inferring this information using computational methods. We
revisit this task, and exploit recent advances in language modelling to
synthesise homonymy annotation for Princeton WordNet. Previous approaches treat
the problem using clustering methods; by contrast, our method works by linking
WordNet to the Oxford English Dictionary, which contains the information we
need. To perform this alignment, we pair definitions based on their proximity
in an embedding space produced by a Transformer model. Despite the simplicity
of this approach, our best model attains an F1 of .97 on an evaluation set that
we annotate. The outcome of our work is a high-quality homonymy annotation
layer for Princeton WordNet, which we release.
- Abstract(参考訳): wordnetの広く認識されている欠点は、体系的に関連づけられた単語の意味(polysemy)と偶然である単語(homonymy)との区別が欠けていることである。
このギャップを埋めるために、いくつかの先行研究が計算手法を用いてこの情報を推測している。
我々はこの課題を再考し、プリンストンWordNetのホモニミーアノテーションを合成する言語モデリングの最近の進歩を活用する。
一方,本手法では,WordNetをオックスフォード英語辞典にリンクすることで,必要な情報を含んでいる。
このアライメントを行うために、トランスフォーマーモデルによって生成される埋め込み空間におけるそれらの近接に基づいて定義をペアする。
このアプローチの単純さにもかかわらず、私たちの最良のモデルは、アノテートした評価セットで.97のF1を達成する。
私たちの研究成果は、Princeton WordNetの高品質なホモニミーアノテーションレイヤで、私たちがリリースしています。
関連論文リスト
- Homonym Sense Disambiguation in the Georgian Language [49.1574468325115]
本研究は,ジョージア語における単語センス曖昧化(WSD)課題に対する新しいアプローチを提案する。
これは、ジョージアのCommon Crawls corpusをフィルタリングすることによって形成されたデータセットに基づいて、事前訓練されたLarge Language Model(LLM)の教師付き微調整に基づいている。
論文 参考訳(メタデータ) (2024-04-24T21:48:43Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Denoising Word Embeddings by Averaging in a Shared Space [34.175826109538676]
単語埋め込みの品質を円滑にし,改善するための新しい手法を提案する。
一般化プロクリスト解析(GPA)手法の効率的な実装を用いて,すべてのモデルを共有ベクトル空間に投影する。
新しい表現はより安定し信頼性が高いため、稀な単語評価において顕著な改善がある。
論文 参考訳(メタデータ) (2021-06-05T19:49:02Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Combining Neural Language Models for WordSense Induction [0.5199765487172326]
単語感覚誘導(WSI)は、この単語の表現された感覚に応じて曖昧な単語の発生をグループ化する問題である。
近年,この課題に対する新たなアプローチが提案され,特定の文脈におけるあいまいな単語の代用となる可能性が示唆された。
本研究では、このアプローチをロシア語に適用し、2つの方法で改善する。
論文 参考訳(メタデータ) (2020-06-23T17:57:25Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。