論文の概要: In Defense of Cosine Similarity: Normalization Eliminates the Gauge Freedom
- arxiv url: http://arxiv.org/abs/2602.19393v1
- Date: Mon, 23 Feb 2026 00:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.622331
- Title: In Defense of Cosine Similarity: Normalization Eliminates the Gauge Freedom
- Title(参考訳): コサインの類似を擁護する : 正規化はゲージの自由を排除
- Authors: Taha Bouhsine,
- Abstract要約: Steck, Ekanadham, Kallus は、学習された埋め込みの余弦的類似性を対角ゲージ'' 行列$D$で任意にレンダリングできることを示した。
これらの結論は、不整合学習目標の病理と、単位球上の余弦距離の幾何的妥当性を混同していると論じる。
- 参考スコア(独自算出の注目度): 0.42303492200814446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Steck, Ekanadham, and Kallus [arXiv:2403.05440] demonstrate that cosine similarity of learned embeddings from matrix factorization models can be rendered arbitrary by a diagonal ``gauge'' matrix $D$. Their result is correct and important for practitioners who compute cosine similarity on embeddings trained with dot-product objectives. However, we argue that their conclusion, cautioning against cosine similarity in general, conflates the pathology of an incompatible training objective with the geometric validity of cosine distance on the unit sphere. We prove that when embeddings are constrained to the unit sphere $\mathbb{S}^{d-1}$ (either during or after training with an appropriate objective), the $D$-matrix ambiguity vanishes identically, and cosine distance reduces to exactly half the squared Euclidean distance. This monotonic equivalence implies that cosine-based and Euclidean-based neighbor rankings are identical on normalized embeddings. The ``problem'' with cosine similarity is not cosine similarity, it is the failure to normalize.
- Abstract(参考訳): Steck, Ekanadham, and Kallus [arXiv:2403.05440] は、行列因数分解モデルから学習した埋め込みのコサイン類似性を、対角の ` `gauge'' 行列$D$ で任意にレンダリングできることを示した。
これらの結果は, ドット生産目標を用いて訓練した埋め込みにおけるコサイン類似性を計算する実践者にとって, 正確かつ重要である。
しかし,それらの結論は概してコサイン類似性(cosine similarity, cosine similarity)に反し, 単位球上のコサイン距離の幾何的妥当性と相容れない訓練対象の病理を混同していると論じる。
埋め込みが単位球面 $\mathbb{S}^{d-1}$ に制限されているとき(適切な目的を持つ訓練中または後に)、$D$-行列のあいまいさは同一に消え、余弦距離はちょうど正方形ユークリッド距離の半分に減少する。
この単調同値性は、コサインベースおよびユークリッドベースの隣のランクが正規化埋め込み上で同一であることを意味する。
cosine 類似性を持つ `problem'' は cosine 類似性ではなく、正規化の失敗である。
関連論文リスト
- Beyond Cosine Similarity [5.076419064097734]
ベクトル空間における意味的類似度を測定する標準的な計量であるコサイン類似度は、コーシー=シュワルツの不等式に数学的に基礎を置いている。
我々は、古典的なコーシー=シュワルツ境界よりも点積のより強い上界を導出することにより、この理論的な基盤を推し進める。
我々の研究は、複雑な埋め込み空間における意味解析の精度を高めるために、数学的に原理化され、経験的に優れた代替手段としてレトスを確立する。
論文 参考訳(メタデータ) (2026-02-05T03:46:21Z) - Variance-Adjusted Cosine Distance as Similarity Metric [3.776817669946595]
本研究はコサイン類似性の限界を示す。
伝統的なコサイン類似度計量はユークリッド空間でのみ有効である。
データにばらつきと相関がある場合、コサイン距離は類似性の完全な正確な尺度ではない。
論文 参考訳(メタデータ) (2025-02-04T11:20:57Z) - The Double-Ellipsoid Geometry of CLIP [4.013156524547072]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は機械学習アプリケーションにおいて非常に有効である。
テキストと画像は, 原点中心ではなく, 線形分離可能な楕円体殻上に存在することを示す。
インスタンスの任意の他のインスタンスに対する平均コサイン類似度を測定する、新しい整合性の概念が導入された。
論文 参考訳(メタデータ) (2024-11-21T16:27:22Z) - On Affine Homotopy between Language Encoders [127.55969928213248]
言語エンコーダのエファフィンアライメント特性について検討する。
アフィンアライメントは基本的には類似性の非対称な概念であるが、外生的類似性についてはいまだに有益である。
論文 参考訳(メタデータ) (2024-06-04T13:58:28Z) - Is Cosine-Similarity of Embeddings Really About Similarity? [46.75365717794515]
コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。
正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。
我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。
論文 参考訳(メタデータ) (2024-03-08T16:48:20Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Sublinear Time Approximation of Text Similarity Matrices [50.73398637380375]
一般的なNystr"om法を不確定な設定に一般化する。
我々のアルゴリズムは任意の類似性行列に適用でき、行列のサイズでサブ線形時間で実行される。
本手法は,CUR分解の単純な変種とともに,様々な類似性行列の近似において非常によく機能することを示す。
論文 参考訳(メタデータ) (2021-12-17T17:04:34Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。