論文の概要: Patterns of Lexical Ambiguity in Contextualised Language Models
- arxiv url: http://arxiv.org/abs/2109.13032v2
- Date: Wed, 29 Sep 2021 12:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 11:23:19.069330
- Title: Patterns of Lexical Ambiguity in Contextualised Language Models
- Title(参考訳): 文脈言語モデルにおける語彙曖昧性のパターン
- Authors: Janosch Haber, Massimo Poesio
- Abstract要約: 本稿では,単語感覚の類似度と共述度を拡張した,人間による注釈付きデータセットを提案する。
どちらの人間の判断も、多文解釈の類似性は意味の同一性とホモニミーの連続性にあることを示している。
我々のデータセットは、語彙的曖昧性の複雑さの大部分を捉えており、文脈的埋め込みのための現実的なテストベッドを提供することができる。
- 参考スコア(独自算出の注目度): 9.747449805791092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the central aspects of contextualised language models is that they
should be able to distinguish the meaning of lexically ambiguous words by their
contexts. In this paper we investigate the extent to which the contextualised
embeddings of word forms that display multiplicity of sense reflect traditional
distinctions of polysemy and homonymy. To this end, we introduce an extended,
human-annotated dataset of graded word sense similarity and co-predication
acceptability, and evaluate how well the similarity of embeddings predicts
similarity in meaning. Both types of human judgements indicate that the
similarity of polysemic interpretations falls in a continuum between identity
of meaning and homonymy. However, we also observe significant differences
within the similarity ratings of polysemes, forming consistent patterns for
different types of polysemic sense alternation. Our dataset thus appears to
capture a substantial part of the complexity of lexical ambiguity, and can
provide a realistic test bed for contextualised embeddings. Among the tested
models, BERT Large shows the strongest correlation with the collected word
sense similarity ratings, but struggles to consistently replicate the observed
similarity patterns. When clustering ambiguous word forms based on their
embeddings, the model displays high confidence in discerning homonyms and some
types of polysemic alternations, but consistently fails for others.
- Abstract(参考訳): 文脈化言語モデルの中心的な側面の1つは、語彙的に曖昧な単語の意味を文脈によって区別できることである。
本稿では,多義性を示す単語形式の文脈的埋め込みが,従来の多義性とホモニミーの区別を反映しているかを検討する。
そこで本研究では,段階的単語感覚の類似性と共述的受容性に関する拡張された人間注釈付きデータセットを導入し,埋め込みの類似性が意味の類似性をどの程度正確に予測するかを評価する。
どちらのタイプの人間の判断も、多義的解釈の類似性は意味の同一性とホモニーミーの連続性にあることを示している。
しかし,ポリセムの類似度評価において有意な差が見られ,異なるタイプのポリセミック感覚変化に対して一貫したパターンが形成される。
このように、我々のデータセットは語彙的曖昧性の複雑さの大部分を捉え、文脈的埋め込みのための現実的なテストベッドを提供することができる。
テストされたモデルの中で、BERT Largeは、収集された単語感覚類似度評価と最強の相関を示すが、観察された類似度パターンを一貫して再現するのは難しい。
組込みに基づくあいまいな単語をクラスタリングする場合、同義語とある種の多義語交替を区別する信頼性が高いが、他の言語では一貫して失敗する。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Conjuring Semantic Similarity [59.18714889874088]
2つのテキスト表現間の意味的類似性は、潜伏者の「意味」の間の距離を測定する
テキスト表現間の意味的類似性は、他の表現を言い換えるのではなく、それらが引き起こすイメージに基づいている、という新しいアプローチを提案する。
提案手法は,人間の注釈付きスコアに適合するだけでなく,テキスト条件付き生成モデル評価のための新たな道を開く意味的類似性に関する新たな視点を提供する。
論文 参考訳(メタデータ) (2024-10-21T18:51:34Z) - Interpretable Measures of Conceptual Similarity by
Complexity-Constrained Descriptive Auto-Encoding [112.0878081944858]
画像間の類似度を定量化することは、画像ベースの機械学習にとって重要な著作権問題である。
我々は,高次関係を捉えた画像間での「概念的類似性」の概念を定義し,計算することを目指している。
2つの非常に異種な画像は、その記述の早い段階で識別できるが、概念的に異種な画像は、より詳細を区別する必要がある。
論文 参考訳(メタデータ) (2024-02-14T03:31:17Z) - Agentivit\`a e telicit\`a in GilBERTo: implicazioni cognitive [77.71680953280436]
本研究の目的は,トランスフォーマーに基づくニューラルネットワークモデルが語彙意味論を推論するかどうかを検討することである。
考慮される意味的性質は、テリシティ(定性とも組み合わされる)と作用性である。
論文 参考訳(メタデータ) (2023-07-06T10:52:22Z) - Universality and diversity in word patterns [0.0]
本稿では,11言語を対象とした語彙統計関係の分析を行う。
言語が単語関係を表現するために利用する多種多様な方法が、ユニークなパターン分布を生み出していることがわかった。
論文 参考訳(メタデータ) (2022-08-23T20:03:27Z) - Keywords and Instances: A Hierarchical Contrastive Learning Framework
Unifying Hybrid Granularities for Text Generation [59.01297461453444]
入力テキスト中のハイブリッドな粒度意味を統一する階層的コントラスト学習機構を提案する。
実験により,本モデルがパラフレージング,対話生成,ストーリーテリングタスクにおいて,競争ベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2022-05-26T13:26:03Z) - Exploring the Representation of Word Meanings in Context: A Case Study
on Homonymy and Synonymy [0.0]
我々は,静的モデルと文脈モデルの両方が,語彙-意味関係を適切に表現できる能力を評価する。
実験はガリシア語、ポルトガル語、英語、スペイン語で行われている。
論文 参考訳(メタデータ) (2021-06-25T10:54:23Z) - Topology of Word Embeddings: Singularities Reflect Polysemy [68.8204255655161]
本稿では,単語の意味の実際の数とよく相関する,永続的ホモロジーに基づく多意味性のトポロジカル尺度を提案する。
本稿では,SemEval-2010における単語センスの誘導と曖昧さに対する単純なトポロジ的な解決法を提案する。
論文 参考訳(メタデータ) (2020-11-18T17:21:51Z) - Bio-inspired Structure Identification in Language Embeddings [3.5292026405502215]
本稿では, バイオインスパイアされた手法を用いて, 単語の埋め込みをトラバースし, 可視化する一連の探索手法を提案する。
本モデルを用いて,単語の埋め込み手法の違いが意味的出力に与える影響について検討する。
論文 参考訳(メタデータ) (2020-09-05T04:44:15Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z) - Multiplex Word Embeddings for Selectional Preference Acquisition [70.33531759861111]
単語間の様々な関係に応じて容易に拡張できる多重単語埋め込みモデルを提案する。
本モデルでは,不必要なスパース性を導入することなく,関係の異なる単語を効果的に識別することができる。
論文 参考訳(メタデータ) (2020-01-09T04:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。