論文の概要: Solving Cosine Similarity Underestimation between High Frequency Words
by L2 Norm Discounting
- arxiv url: http://arxiv.org/abs/2305.10610v1
- Date: Wed, 17 May 2023 23:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 17:50:24.029379
- Title: Solving Cosine Similarity Underestimation between High Frequency Words
by L2 Norm Discounting
- Title(参考訳): L2ノルム法による高周波単語間のコサイン類似度推定
- Authors: Saeth Wannasuphoprasit, Yi Zhou, Danushka Bollegala
- Abstract要約: 本稿では,単語間のコサイン類似度を測定する際に,その単語の周波数に埋め込まれた文脈化された単語のL2ノルムをコーパスに分解する手法を提案する。
文脈的単語類似度データセットの実験結果から,提案手法は類似度推定の難しさを正確に解決することを示した。
- 参考スコア(独自算出の注目度): 19.12036493733793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cosine similarity between two words, computed using their contextualised
token embeddings obtained from masked language models (MLMs) such as BERT has
shown to underestimate the actual similarity between those words (Zhou et al.,
2022). This similarity underestimation problem is particularly severe for
highly frequent words. Although this problem has been noted in prior work, no
solution has been proposed thus far. We observe that the L2 norm of
contextualised embeddings of a word correlates with its log-frequency in the
pretraining corpus. Consequently, the larger L2 norms associated with the
highly frequent words reduce the cosine similarity values measured between
them, thus underestimating the similarity scores. To solve this issue, we
propose a method to discount the L2 norm of a contextualised word embedding by
the frequency of that word in a corpus when measuring the cosine similarities
between words. We show that the so called stop words behave differently from
the rest of the words, which require special consideration during their
discounting process. Experimental results on a contextualised word similarity
dataset show that our proposed discounting method accurately solves the
similarity underestimation problem.
- Abstract(参考訳): BERTのようなマスキング言語モデル(MLM)から得られた文脈的トークン埋め込みを用いて計算された2単語間のコサイン類似性は、それらの単語間の実際の類似性を過小評価することを示した(Zhou et al., 2022)。
この類似性の過小評価問題は、高頻度の単語では特に深刻である。
この問題は以前の研究でも指摘されているが、今のところ解決は提案されていない。
単語の文脈的埋め込みのl2ノルムは,事前学習コーパスにおけるログ頻度と相関する。
その結果、高い頻度の単語に関連する大きなL2ノルムはコサイン類似度値を減少させ、類似度スコアを過小評価する。
そこで本研究では,単語間のコサイン類似度を測定する際に,コーパス内の単語の頻度によって文脈化単語埋め込みのl2ノルムを下げる手法を提案する。
いわゆる「停止語」は、他の単語と異なる振る舞いを示すが、これは割引プロセスにおいて特別な配慮を必要とする。
文脈化単語類似度データセットにおける実験結果から,提案手法が類似度推定問題を正確に解決することを示す。
関連論文リスト
- Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS [68.34155010428941]
文エンコーダ(SE)が類似する文ペアの種類は明らかでない。
HEROSは、ある規則に基づいて原文を新しい文に変換し、テキスト最小対を形成することによって構築される
HEROS上の60以上の教師なしSEの性能を体系的に比較することにより,ほとんどの教師なしエンコーダが否定に敏感であることを明らかにする。
論文 参考訳(メタデータ) (2023-06-08T10:24:02Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Investigating the Frequency Distortion of Word Embeddings and Its Impact
on Bias Metrics [2.1374208474242815]
いくつかの静的単語埋め込みにおける周波数と意味的類似性の関係を体系的に研究する。
Skip-gram、GloVe、FastTextの埋め込みは、他の周波数の組み合わせよりも高周波ワード間の意味的類似性が高い傾向にある。
論文 参考訳(メタデータ) (2022-11-15T15:11:06Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words [45.58634797899206]
その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
論文 参考訳(メタデータ) (2022-05-10T18:00:06Z) - Comparing in context: Improving cosine similarity measures with a metric
tensor [0.0]
コサイン類似性は、言語モデリングの目標に基づいて訓練された事前訓練された単語埋め込みの関連性の尺度として広く用いられている。
そこで我々は,そのタスクの性能向上のために,拡張されたコサイン類似度尺度を用いることを提案する。
我々は、文脈化メトリクスを学習し、標準コサイン類似度尺度を用いて得られた基準値と比較し、常に改善を示す。
また、SimLex-999 と WordSim-353 のコンテキスト化類似度尺度をトレーニングし、結果と対応するベースラインを比較し、これらのデータセットを学習した全コンテキスト類似度尺度の独立したテストセットとして使用する。
論文 参考訳(メタデータ) (2022-03-28T18:04:26Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Frequency-based Distortions in Contextualized Word Embeddings [29.88883761339757]
本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
論文 参考訳(メタデータ) (2021-04-17T06:35:48Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - Speakers Fill Lexical Semantic Gaps with Context [65.08205006886591]
我々は単語の語彙的あいまいさを意味のエントロピーとして運用する。
単語のあいまいさの推定値と,WordNetにおける単語の同義語数との間には,有意な相関関係が認められた。
これは、あいまいさの存在下では、話者が文脈をより情報的にすることで補うことを示唆している。
論文 参考訳(メタデータ) (2020-10-05T17:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。