論文の概要: Is Cosine-Similarity of Embeddings Really About Similarity?
- arxiv url: http://arxiv.org/abs/2403.05440v1
- Date: Fri, 8 Mar 2024 16:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 13:08:16.604534
- Title: Is Cosine-Similarity of Embeddings Really About Similarity?
- Title(参考訳): Cosine-Similarity of Embeddings is reallyly About similarity?
- Authors: Harald Steck, Chaitanya Ekanadham, Nathan Kallus
- Abstract要約: コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。
正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。
我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。
- 参考スコア(独自算出の注目度): 46.75365717794515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cosine-similarity is the cosine of the angle between two vectors, or
equivalently the dot product between their normalizations. A popular
application is to quantify semantic similarity between high-dimensional objects
by applying cosine-similarity to a learned low-dimensional feature embedding.
This can work better but sometimes also worse than the unnormalized dot-product
between embedded vectors in practice. To gain insight into this empirical
observation, we study embeddings derived from regularized linear models, where
closed-form solutions facilitate analytical insights. We derive analytically
how cosine-similarity can yield arbitrary and therefore meaningless
`similarities.' For some linear models the similarities are not even unique,
while for others they are implicitly controlled by the regularization. We
discuss implications beyond linear models: a combination of different
regularizations are employed when learning deep models; these have implicit and
unintended effects when taking cosine-similarities of the resulting embeddings,
rendering results opaque and possibly arbitrary. Based on these insights, we
caution against blindly using cosine-similarity and outline alternatives.
- Abstract(参考訳): コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。
一般的な応用は、学習した低次元特徴埋め込みにコサイン類似性を適用することで、高次元オブジェクト間の意味的類似性を定量化することである。
これはうまく機能するが、実際には組込みベクトル間の非正規化ドット積よりも悪い場合もある。
この経験的観察の洞察を得るために,閉形式解が解析的洞察を促進する正規化線形モデルからの埋め込みについて検討した。
分析的に、コサイン相似性が任意で意味のない「相似性」をいかに生み出すかを導出する。
' 線形モデルでは類似性は一意ではなく、他のモデルでは正規化によって暗黙的に制御される。
深層モデルを学ぶ際に異なる正規化の組み合わせが用いられる;これらの組み合わせは、結果の埋め込みのコサイン相似性を取る際に暗黙的かつ意図しない効果を持ち、その結果は不透明であり、おそらくは任意である。
これらの知見に基づいて,コサイン相似性とアウトライン代替法を盲目的に使用することを警告する。
関連論文リスト
- Differentiable Optimization of Similarity Scores Between Models and Brains [1.5391321019692434]
線形回帰、CKA(Centered Kernel Alignment)、正規化バーレス類似度(NBS)、角状プロクリスト距離といった類似度は、この類似度を定量化するためにしばしば用いられる。
本稿では、類似度の高いスコアと「良い」スコアを構成するスコアについて調査する新しいツールについて紹介する。
驚くべきことに、高い類似度スコアは、ニューラルデータと整合した方法でタスク関連情報を符号化することを保証していない。
論文 参考訳(メタデータ) (2024-07-09T17:31:47Z) - Why bother with geometry? On the relevance of linear decompositions of
Transformer embeddings [5.151529346168568]
このような2つの埋め込み分解法を用いて,機械翻訳デコーダの表現について検討した。
結果から,分解誘導指標はモデル性能と効果的に相関するが,異なる実行時間にまたがる変動は,この問題に対するより微妙な取扱いを示唆している。
論文 参考訳(メタデータ) (2023-10-10T19:56:10Z) - Beyond Instance Discrimination: Relation-aware Contrastive
Self-supervised Learning [75.46664770669949]
本稿では,関係認識型コントラスト型自己教師型学習(ReCo)をインスタンス関係に統合するために提案する。
当社のReCoは、常に顕著なパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2022-11-02T03:25:28Z) - Duality-Induced Regularizer for Semantic Matching Knowledge Graph
Embeddings [70.390286614242]
本稿では, 類似のセマンティクスを持つエンティティの埋め込みを効果的に促進する新しい正規化器(duality-induced RegulArizer (DURA))を提案する。
実験により、DURAは、最先端のセマンティックマッチングモデルの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2022-03-24T09:24:39Z) - Generalized quantum similarity learning [0.0]
我々は、同じ次元を持たないデータ間のタスク依存(a)対称類似性を学習するための量子ネットワーク(GQSim)を提案する。
この手法を用いて導出された類似度尺度が$(epsilon,gamma,tau)$-goodであることを示す。
論文 参考訳(メタデータ) (2022-01-07T03:28:19Z) - Sublinear Time Approximation of Text Similarity Matrices [50.73398637380375]
一般的なNystr"om法を不確定な設定に一般化する。
我々のアルゴリズムは任意の類似性行列に適用でき、行列のサイズでサブ線形時間で実行される。
本手法は,CUR分解の単純な変種とともに,様々な類似性行列の近似において非常によく機能することを示す。
論文 参考訳(メタデータ) (2021-12-17T17:04:34Z) - ICON: Learning Regular Maps Through Inverse Consistency [19.27928605302463]
画像登録の計算など空間変換の正則性をもたらすものについて検討する。
深いネットワークと逆整合損失とランダム化されたオフグリッド収量は、ほぼ微分同相の空間変換でよく振る舞う。
このアプローチの単純さにもかかわらず、実験は合成データと実データの両方において、明示的な正規化子と競合的な登録性能を慎重に調整せずに正規写像を得ることができるという説得力のある証拠を示している。
論文 参考訳(メタデータ) (2021-05-10T15:52:12Z) - A Differential Geometry Perspective on Orthogonal Recurrent Models [56.09491978954866]
我々は微分幾何学からのツールと洞察を用いて、直交rnnの新しい視点を提供する。
直交RNNは、発散自由ベクトル場の空間における最適化と見なすことができる。
この観測に動機づけられて、ベクトル場全体の空間にまたがる新しいリカレントモデルの研究を行う。
論文 参考訳(メタデータ) (2021-02-18T19:39:22Z) - Pairwise Supervision Can Provably Elicit a Decision Boundary [84.58020117487898]
類似性学習は、パターンのペア間の関係を予測することによって有用な表現を引き出す問題である。
類似性学習は、決定境界を直接引き出すことによって二項分類を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-11T05:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。