論文の概要: Topology of Word Embeddings: Singularities Reflect Polysemy
- arxiv url: http://arxiv.org/abs/2011.09413v1
- Date: Wed, 18 Nov 2020 17:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 04:03:40.494658
- Title: Topology of Word Embeddings: Singularities Reflect Polysemy
- Title(参考訳): 単語埋め込みのトポロジー:特異性はポリセミーを反映している
- Authors: Alexander Jakubowski, Milica Ga\v{s}i\'c, Marcus Zibrowius
- Abstract要約: 本稿では,単語の意味の実際の数とよく相関する,永続的ホモロジーに基づく多意味性のトポロジカル尺度を提案する。
本稿では,SemEval-2010における単語センスの誘導と曖昧さに対する単純なトポロジ的な解決法を提案する。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The manifold hypothesis suggests that word vectors live on a submanifold
within their ambient vector space. We argue that we should, more accurately,
expect them to live on a pinched manifold: a singular quotient of a manifold
obtained by identifying some of its points. The identified, singular points
correspond to polysemous words, i.e. words with multiple meanings. Our point of
view suggests that monosemous and polysemous words can be distinguished based
on the topology of their neighbourhoods. We present two kinds of empirical
evidence to support this point of view: (1) We introduce a topological measure
of polysemy based on persistent homology that correlates well with the actual
number of meanings of a word. (2) We propose a simple, topologically motivated
solution to the SemEval-2010 task on Word Sense Induction & Disambiguation that
produces competitive results.
- Abstract(参考訳): 多様体仮説は、単語ベクトルが周囲のベクトル空間内の部分多様体上に存在することを示唆する。
我々は、より正確には、それらの点のいくつかを同定して得られる多様体の特異商であるピンテッド多様体上に存在することを期待すべきであると主張する。
識別された特異点は多義語、すなわち複数の意味を持つ単語に対応する。
我々の見解は、単元語と多元語は近隣のトポロジーに基づいて区別できることを示唆している。
1) 単語の意味の実際の数と相関する永続的ホモロジーに基づくトポロジカルな多意味性尺度を導入する。
2)SemEval-2010における単語センス誘導・曖昧化問題に対する単純なトポロジ的動機付けの解法を提案する。
関連論文リスト
- Analyzing Polysemy Evolution Using Semantic Cells [0.0]
本研究は, セマンティック・セルの進化的帰結として, ポリーセミー(polysemy)という言葉が現れることを示唆する。
特に、Chat GPTを用いて収集された単語Springの4つの感覚のそれぞれに対して、ある順序で1000文の文列を解析すると、単語が最も多節単調に取得されることを示す。
論文 参考訳(メタデータ) (2024-07-23T00:52:12Z) - Domain Embeddings for Generating Complex Descriptions of Concepts in
Italian Language [65.268245109828]
電子辞書から抽出した言語情報と語彙情報に富んだ分布意味資源を提案する。
リソースは21のドメイン固有の行列と1つの包括的なマトリックスとグラフィカルユーザインタフェースから構成される。
本モデルは,具体的概念知識に直接関連した行列を選択することにより,概念の意味的記述の推論を容易にする。
論文 参考訳(メタデータ) (2024-02-26T15:04:35Z) - Neighboring Words Affect Human Interpretation of Saliency Explanations [65.29015910991261]
単語レベルのサリエンシの説明は、しばしばテキストベースのモデルで特徴属性を伝えるために使われる。
近年の研究では、単語の長さなどの表面的要因が、コミュニケーションされたサリエンシスコアの人間の解釈を歪めてしまうことが報告されている。
本研究では,単語の近傍にある単語のマーキングが,その単語の重要性に対する説明者の認識にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-05-04T09:50:25Z) - Word-Embeddings Distinguish Denominal and Root-Derived Verbs in Semitic [0.0]
ヘブライ語埋め込みの文脈における2段階仮説の有効性を検証することを提案する。
2段階の仮説が導出されている場合,(1)は名詞,(2)はそれに由来する名詞,(3)は名詞に関連する動詞がエンコードされることを期待する。
我々は,この仮説を,fastText,GloVe,Word2Vec,AlephBERTの4つの埋め込みモデルを用いて検証した。
論文 参考訳(メタデータ) (2022-08-11T09:31:37Z) - The Causal Structure of Semantic Ambiguities [0.0]
本研究は,(1)異なる解釈の連立可否度,(2)プロセスにおいて特定の単語がより重要な役割を果たす因果構造,の2つの特徴を同定する。
我々はこの理論を、心理学文献から抽出された曖昧なフレーズのデータセットと、私たちによって収集された人間の妥当性に応用した。
論文 参考訳(メタデータ) (2022-06-14T12:56:34Z) - Patterns of Lexical Ambiguity in Contextualised Language Models [9.747449805791092]
本稿では,単語感覚の類似度と共述度を拡張した,人間による注釈付きデータセットを提案する。
どちらの人間の判断も、多文解釈の類似性は意味の同一性とホモニミーの連続性にあることを示している。
我々のデータセットは、語彙的曖昧性の複雑さの大部分を捉えており、文脈的埋め込みのための現実的なテストベッドを提供することができる。
論文 参考訳(メタデータ) (2021-09-27T13:11:44Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - SST-BERT at SemEval-2020 Task 1: Semantic Shift Tracing by Clustering in
BERT-based Embedding Spaces [63.17308641484404]
本稿では,異なる単語の意味の表現として,各単語の異なる事象のクラスタを特定することを提案する。
得られたクラスタの分解は、自然に4つのターゲット言語において、各ターゲットワードごとの意味的シフトのレベルを定量化することができる。
当社のアプローチは,提供されたすべてのSemEvalベースラインを抜いて,個別(言語毎)と全体の両方で良好に動作します。
論文 参考訳(メタデータ) (2020-10-02T08:38:40Z) - It Means More if It Sounds Good: Yet Another Hypothesis Concerning the
Evolution of Polysemous Words [9.434133337939498]
Ollivier-Ricci曲率を同義語の大きなグラフ上で多節語を推定することで、発音し易い単語が複数の意味を持つ傾向があることを実証的に示している。
論文 参考訳(メタデータ) (2020-03-12T12:55:50Z) - Where New Words Are Born: Distributional Semantic Analysis of Neologisms
and Their Semantic Neighborhoods [51.34667808471513]
分散意味論のパラダイムで定式化されたセマンティック隣人のセマンティック・スパシティと周波数成長率という2つの要因の重要性について検討する。
いずれの因子も単語の出現を予測できるが,後者の仮説はより支持される。
論文 参考訳(メタデータ) (2020-01-21T19:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。