論文の概要: Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words
- arxiv url: http://arxiv.org/abs/2205.05092v1
- Date: Tue, 10 May 2022 18:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:18:16.174287
- Title: Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words
- Title(参考訳): 高周波単語の類似性埋め込み尺度としてのコサインの問題点
- Authors: Kaitlyn Zhou, Kawin Ethayarajh, Dallas Card, Dan Jurafsky
- Abstract要約: その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
- 参考スコア(独自算出の注目度): 45.58634797899206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cosine similarity of contextual embeddings is used in many NLP tasks (e.g.,
QA, IR, MT) and metrics (e.g., BERTScore). Here, we uncover systematic ways in
which word similarities estimated by cosine over BERT embeddings are
understated and trace this effect to training data frequency. We find that
relative to human judgements, cosine similarity underestimates the similarity
of frequent words with other instances of the same word or other words across
contexts, even after controlling for polysemy and other factors. We conjecture
that this underestimation of similarity for high frequency words is due to
differences in the representational geometry of high and low frequency words
and provide a formal argument for the two-dimensional case.
- Abstract(参考訳): 文脈埋め込みのコサイン類似性は多くのNLPタスク(QA、IR、MTなど)とメトリクス(BERTScoreなど)で使用されている。
ここでは,BERT埋め込みよりもコサインによって推定される単語の類似性を過小評価し,この効果をデータ周波数の訓練に用いた。
人間の判断と比較すると、コサインの類似性は、多義語やその他の要因を制御した後でも、同じ単語または他の単語の他の例との類似性を過小評価している。
この高周波語に対する類似性の過小評価は、高頻度語と低頻度語の表現幾何学の違いによるものと推測し、2次元の場合の形式的議論を提供する。
関連論文リスト
- Solving Cosine Similarity Underestimation between High Frequency Words
by L2 Norm Discounting [19.12036493733793]
本稿では,単語間のコサイン類似度を測定する際に,その単語の周波数に埋め込まれた文脈化された単語のL2ノルムをコーパスに分解する手法を提案する。
文脈的単語類似度データセットの実験結果から,提案手法は類似度推定の難しさを正確に解決することを示した。
論文 参考訳(メタデータ) (2023-05-17T23:41:30Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Investigating the Frequency Distortion of Word Embeddings and Its Impact
on Bias Metrics [2.1374208474242815]
いくつかの静的単語埋め込みにおける周波数と意味的類似性の関係を体系的に研究する。
Skip-gram、GloVe、FastTextの埋め込みは、他の周波数の組み合わせよりも高周波ワード間の意味的類似性が高い傾向にある。
論文 参考訳(メタデータ) (2022-11-15T15:11:06Z) - Word Embeddings Are Capable of Capturing Rhythmic Similarity of Words [0.0]
Word2VecやGloVeのような単語埋め込みシステムは、NLPに対するディープラーニングアプローチでよく知られている。
本研究は,単語のリズム的類似性を捉える上での有用性について検討した。
その結果、これらの埋め込みは、他の単語と比較して、韻律語に割り当てられるベクターが互いに類似していることが判明した。
論文 参考訳(メタデータ) (2022-04-11T02:33:23Z) - Comparing in context: Improving cosine similarity measures with a metric
tensor [0.0]
コサイン類似性は、言語モデリングの目標に基づいて訓練された事前訓練された単語埋め込みの関連性の尺度として広く用いられている。
そこで我々は,そのタスクの性能向上のために,拡張されたコサイン類似度尺度を用いることを提案する。
我々は、文脈化メトリクスを学習し、標準コサイン類似度尺度を用いて得られた基準値と比較し、常に改善を示す。
また、SimLex-999 と WordSim-353 のコンテキスト化類似度尺度をトレーニングし、結果と対応するベースラインを比較し、これらのデータセットを学習した全コンテキスト類似度尺度の独立したテストセットとして使用する。
論文 参考訳(メタデータ) (2022-03-28T18:04:26Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - FastKASSIM: A Fast Tree Kernel-Based Syntactic Similarity Metric [48.66580267438049]
我々は,発話レベルと文書レベルの構文的類似性の指標であるFastKASSIMを提案する。
ツリーカーネルに基づいたドキュメントのペア間で、最も類似した依存関係解析ツリーをペア化し、平均化する。
r/ChangeMyViewコーパス内のドキュメントのベースラインメソッドよりも最大5.2倍高速に動作します。
論文 参考訳(メタデータ) (2022-03-15T22:33:26Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Frequency-based Distortions in Contextualized Word Embeddings [29.88883761339757]
本研究は,文脈化単語埋め込みの幾何学的特徴を2つの新しいツールを用いて探究する。
高頻度と低頻度の単語は、その表現幾何学に関して大きく異なる。
BERT-Baseは、北米やヨーロッパ諸国よりも南アメリカとアフリカ諸国の差別化が難しい。
論文 参考訳(メタデータ) (2021-04-17T06:35:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。