論文の概要: Variance-Adjusted Cosine Distance as Similarity Metric
- arxiv url: http://arxiv.org/abs/2502.02233v1
- Date: Tue, 04 Feb 2025 11:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:53.375633
- Title: Variance-Adjusted Cosine Distance as Similarity Metric
- Title(参考訳): 類似度指標としての可変調整コサイン距離
- Authors: Satyajeet Sahoo, Jhareswar Maiti,
- Abstract要約: 本研究はコサイン類似性の限界を示す。
伝統的なコサイン類似度計量はユークリッド空間でのみ有効である。
データにばらつきと相関がある場合、コサイン距離は類似性の完全な正確な尺度ではない。
- 参考スコア(独自算出の注目度): 3.776817669946595
- License:
- Abstract: Cosine similarity is a popular distance measure that measures the similarity between two vectors in the inner product space. It is widely used in many data classification algorithms like K-Nearest Neighbors, Clustering etc. This study demonstrates limitations of application of cosine similarity. Particularly, this study demonstrates that traditional cosine similarity metric is valid only in the Euclidean space, whereas the original data resides in a random variable space. When there is variance and correlation in the data, then cosine distance is not a completely accurate measure of similarity. While new similarity and distance metrics have been developed to make up for the limitations of cosine similarity, these metrics are used as substitutes to cosine distance, and do not make modifications to cosine distance to overcome its limitations. Subsequently, we propose a modified cosine similarity metric, where cosine distance is adjusted by variance-covariance of the data. Application of variance-adjusted cosine distance gives better similarity performance compared to traditional cosine distance. KNN modelling on the Wisconsin Breast Cancer Dataset is performed using both traditional and modified cosine similarity measures and compared. The modified formula shows 100% test accuracy on the data.
- Abstract(参考訳): コサイン類似度(Cosine similarity)は、内積空間内の2つのベクトル間の類似度を測定する一般的な距離測度である。
K-Nearest NeighborsやClusteringなど、多くのデータ分類アルゴリズムで広く使用されている。
本研究はコサイン類似性の限界を示す。
特に本研究では、従来のコサイン類似度計量はユークリッド空間でのみ有効であるが、元のデータはランダムな変数空間に存在することを示した。
データにばらつきと相関がある場合、コサイン距離は類似性の完全な正確な尺度ではない。
新しい類似度と距離の指標は、コサイン距離の制限を補うために開発されたが、これらの指標はコサイン距離の代用として使われ、その制限を克服するためにコサイン距離の変更を行わない。
次に,データの分散共分散によりコサイン距離を調整したコサイン類似度尺度を提案する。
分散調整されたコサイン距離の応用は、従来のコサイン距離よりも類似性が高い。
ウィスコンシン乳がんデータセットのKNNモデリングは、伝統的なコサイン類似度尺度と修正されたコサイン類似度尺度の両方を用いて行われ、比較される。
修正された公式は、データに対する100%のテスト精度を示す。
関連論文リスト
- Differentiable Optimization of Similarity Scores Between Models and Brains [1.5391321019692434]
線形回帰、CKA(Centered Kernel Alignment)、正規化バーレス類似度(NBS)、角状プロクリスト距離といった類似度は、この類似度を定量化するためにしばしば用いられる。
本稿では、類似度の高いスコアと「良い」スコアを構成するスコアについて調査する新しいツールについて紹介する。
驚くべきことに、高い類似度スコアは、ニューラルデータと整合した方法でタスク関連情報を符号化することを保証していない。
論文 参考訳(メタデータ) (2024-07-09T17:31:47Z) - A general framework for distributed approximate similarity search with arbitrary distances [0.5030361857850012]
類似性検索は、情報管理や検索、データ分析といった領域における中心的な問題である。
多くの類似性探索アルゴリズムは、メートル法距離に設計または特に適応している。
本稿では,任意の距離を受け入れる分散近似類似性探索のフレームワークであるGDASCを提案する。
論文 参考訳(メタデータ) (2024-05-22T16:19:52Z) - Is Cosine-Similarity of Embeddings Really About Similarity? [46.75365717794515]
コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。
正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。
我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。
論文 参考訳(メタデータ) (2024-03-08T16:48:20Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words [45.58634797899206]
その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
論文 参考訳(メタデータ) (2022-05-10T18:00:06Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - A Triangle Inequality for Cosine Similarity [0.0]
類似性探索は多くのデータ解析手法の基本的な問題である。
本稿では,コサイン類似度に対する三角形の不等式を導出し,多くの標準探索構造を用いた効率的な類似度探索を行う。
論文 参考訳(メタデータ) (2021-07-08T19:13:34Z) - Word Rotator's Distance [50.67809662270474]
テキスト類似性を評価する上での鍵となる原則は、単語のアライメントを考慮した2つのテキスト間の意味的重複度を測定することである。
単語ベクトルのノルムは単語の重要度によいプロキシであり、その角度は単語類似度によいプロキシであることを示す。
本稿では,まず単語ベクトルをノルムと方向に分解し,アライメントに基づく類似性を計算する手法を提案する。
論文 参考訳(メタデータ) (2020-04-30T17:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。