論文の概要: RAW-C: Relatedness of Ambiguous Words--in Context (A New Lexical
Resource for English)
- arxiv url: http://arxiv.org/abs/2105.13266v1
- Date: Thu, 27 May 2021 16:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 21:17:06.286019
- Title: RAW-C: Relatedness of Ambiguous Words--in Context (A New Lexical
Resource for English)
- Title(参考訳): raw-c: あいまいな単語の関連性--inコンテキスト(英語の新しい語彙資源)
- Authors: Sean Trott and Benjamin Bergen
- Abstract要約: 文脈的埋め込みが単語の意味の連続的、動的性質にどの程度適合しているかを評価する。
我々は、コサイン距離が、人間が同じ単語の感覚をいかに利用しているかを体系的に過小評価していることを示す。
本稿では,精神語彙の心理言語学理論と語彙意味論の計算モデルとの合成を提案する。
- 参考スコア(独自算出の注目度): 2.792030485253753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most words are ambiguous--i.e., they convey distinct meanings in different
contexts--and even the meanings of unambiguous words are context-dependent.
Both phenomena present a challenge for NLP. Recently, the advent of
contextualized word embeddings has led to success on tasks involving lexical
ambiguity, such as Word Sense Disambiguation. However, there are few tasks that
directly evaluate how well these contextualized embeddings accommodate the more
continuous, dynamic nature of word meaning--particularly in a way that matches
human intuitions. We introduce RAW-C, a dataset of graded, human relatedness
judgments for 112 ambiguous words in context (with 672 sentence pairs total),
as well as human estimates of sense dominance. The average inter-annotator
agreement (assessed using a leave-one-annotator-out method) was 0.79. We then
show that a measure of cosine distance, computed using contextualized
embeddings from BERT and ELMo, correlates with human judgments, but that cosine
distance also systematically underestimates how similar humans find uses of the
same sense of a word to be, and systematically overestimates how similar humans
find uses of different-sense homonyms. Finally, we propose a synthesis between
psycholinguistic theories of the mental lexicon and computational models of
lexical semantics.
- Abstract(参考訳): ほとんどの単語は曖昧であり、異なる文脈で異なる意味を伝え、曖昧でない単語の意味も文脈依存である。
どちらの現象もNLPに挑戦する。
近年、文脈化された単語埋め込みの出現は、Word Sense Disambiguationのような語彙的曖昧性を含むタスクの成功につながっている。
しかしながら、これらの文脈化された埋め込みが単語の意味のより連続的で動的な性質にどの程度うまく適合しているかを直接的に評価するタスクはほとんどない。
本研究では,文脈の曖昧な112語(合計672文ペア)について,人間関係性判断のデータセットであるraw-cと,感覚支配の人的推定について紹介する。
平均的なアノテータ間合意(Left-one-annotator-out法による評価)は0.79。
次に, bert と elmo の文脈的埋め込みを用いて計算されたコサイン距離の尺度は, ヒトの判断と相関するが, コサイン距離は, 類似する人間が単語の同じ感覚をどのように利用するのかを, 体系的に過小評価し, 類似する人間が異なる意味のホモニムをどのように利用するかを体系的に過大評価しているかを示す。
最後に,精神語彙の心理言語理論と語彙意味論の計算モデルとの合成を提案する。
関連論文リスト
- We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - Subject Verb Agreement Error Patterns in Meaningless Sentences: Humans
vs. BERT [64.40111510974957]
英語における主語数合意に意味が干渉するかどうかを検証する。
意味的によく形づくられた、意味のないアイテムを生成します。
BERTと人間はどちらも、セマンティックな操作に敏感である。
論文 参考訳(メタデータ) (2022-09-21T17:57:23Z) - Lost in Context? On the Sense-wise Variance of Contextualized Word
Embeddings [11.475144702935568]
各単語感覚の文脈的埋め込みが、典型的な事前学習モデルにおける文脈によってどの程度異なるかを定量化する。
単語表現は位置バイアスを受けており、異なる文脈における最初の単語はより類似する傾向にある。
論文 参考訳(メタデータ) (2022-08-20T12:27:25Z) - A Quadratic 0-1 Programming Approach for Word Sense Disambiguation [0.0]
単語センスの曖昧さ(英: Word Sense Disambiguation, WSD)とは、ある文脈における曖昧な単語の感覚を決定するタスクである。
私たちは、正しいパターンを見つける上で大きな困難の1つとして、以下の原因を論じます。
本稿では,WSD問題を最大化する擬似プログラミングモデル (QIP) を用いて,異なる対象単語の感覚間の相互作用にアプローチする。
論文 参考訳(メタデータ) (2022-01-13T10:46:06Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Contextualized Word Embeddings Encode Aspects of Human-Like Word Sense
Knowledge [0.0]
NLPの最近の進歩、特に文脈的単語埋め込みは、英語の単語感覚間の人間的な区別を捉えているかどうかを考察する。
BERT埋め込み空間における感覚間の距離と,感覚間の関連性に関する被験者の判断が相関していることが判明した。
本研究は,意味の連続空間表現の有用性を示唆するものである。
論文 参考訳(メタデータ) (2020-10-25T07:56:52Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z) - SLAM-Inspired Simultaneous Contextualization and Interpreting for
Incremental Conversation Sentences [0.0]
逐次文中の多文単語の文脈と解釈を動的に推定する手法を提案する。
SCAINアルゴリズムを用いることで、文脈と単語の解釈の相互依存性を逐次最適化し、新しい解釈をオンラインで得ることができる。
論文 参考訳(メタデータ) (2020-05-29T16:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。