論文の概要: A Triangle Inequality for Cosine Similarity
- arxiv url: http://arxiv.org/abs/2107.04071v1
- Date: Thu, 8 Jul 2021 19:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:38:40.536046
- Title: A Triangle Inequality for Cosine Similarity
- Title(参考訳): コサイン類似性に対する三角不等式
- Authors: Erich Schubert
- Abstract要約: 類似性探索は多くのデータ解析手法の基本的な問題である。
本稿では,コサイン類似度に対する三角形の不等式を導出し,多くの標準探索構造を用いた効率的な類似度探索を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Similarity search is a fundamental problem for many data analysis techniques.
Many efficient search techniques rely on the triangle inequality of metrics,
which allows pruning parts of the search space based on transitive bounds on
distances. Recently, Cosine similarity has become a popular alternative choice
to the standard Euclidean metric, in particular in the context of textual data
and neural network embeddings. Unfortunately, Cosine similarity is not metric
and does not satisfy the standard triangle inequality. Instead, many search
techniques for Cosine rely on approximation techniques such as locality
sensitive hashing. In this paper, we derive a triangle inequality for Cosine
similarity that is suitable for efficient similarity search with many standard
search structures (such as the VP-tree, Cover-tree, and M-tree); show that this
bound is tight and discuss fast approximations for it. We hope that this spurs
new research on accelerating exact similarity search for cosine similarity, and
possible other similarity measures beyond the existing work for distance
metrics.
- Abstract(参考訳): 類似性探索は多くのデータ解析手法の基本的な問題である。
多くの効率的な探索手法はメトリクスの三角不等式に依存しており、距離の推移的境界に基づいて探索空間の一部を刈り取ることができる。
近年、コサイン類似性は標準ユークリッド計量、特にテキストデータとニューラルネットワークの埋め込みの文脈において、一般的な選択肢となっている。
残念なことに、コサインの類似性は計量ではなく、標準三角不等式を満たさない。
代わりに、コサインの多くの探索技術は局所性に敏感なハッシュのような近似技術に依存している。
本稿では,多くの標準探索構造(vp-tree, cover-tree, m-treeなど)を持つ効率的な類似性探索に適したコサイン類似性に対する三角不等式を導出し,この境界が密接であることを示し,それに対する高速近似について考察する。
これは、コサイン類似性の正確な検索を加速する新たな研究を刺激し、既存の距離測定以外の類似性対策の可能性も期待している。
関連論文リスト
- COS-Mix: Cosine Similarity and Distance Fusion for Improved Information Retrieval [0.0]
本研究では,レトリーバル拡張生成(RAG)のための新しいハイブリッド検索手法を提案する。
伝統的なコサイン類似度尺度は、高次元空間におけるベクトル間の類似度を捉えるために広く用いられている。
ベクトル間の相似性を定量化することにより、相補的な視点を提供するためにコサイン距離測度を組み込む。
論文 参考訳(メタデータ) (2024-06-02T06:48:43Z) - A general framework for distributed approximate similarity search with arbitrary distances [0.5030361857850012]
類似性検索は、情報管理や検索、データ分析といった領域における中心的な問題である。
多くの類似性探索アルゴリズムは、メートル法距離に設計または特に適応している。
本稿では,任意の距離を受け入れる分散近似類似性探索のフレームワークであるGDASCを提案する。
論文 参考訳(メタデータ) (2024-05-22T16:19:52Z) - Is Cosine-Similarity of Embeddings Really About Similarity? [46.75365717794515]
コサイン相似性(Cosine-similarity)は、2つのベクトル間の角度のコサイン、すなわちそれらの正規化の間のドット積である。
正規化線形モデルから導かれる埋め込みについて検討し、そこでは閉形式解が解析的洞察を促進する。
我々はコサイン相似性が任意の、したがって無意味な類似性をもたらすか分析的に導出する」。
論文 参考訳(メタデータ) (2024-03-08T16:48:20Z) - Unsupervised Hashing with Similarity Distribution Calibration [127.34239817201549]
教師なしハッシュ法は、特徴空間内のデータポイント間の類似性をバイナリハッシュコードにマッピングすることで保存することを目的としている。
これらの方法は、連続的な特徴空間におけるデータポイント間の類似性が離散的なハッシュコード空間に保存されないという事実をしばしば見落としている。
類似性範囲はコードの長さによって制限され、類似性崩壊と呼ばれる問題を引き起こす可能性がある。
本稿では,この問題を緩和する新しい類似度分布法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:06:39Z) - Problems with Cosine as a Measure of Embedding Similarity for High
Frequency Words [45.58634797899206]
その結果、コサイン類似性は、同じ単語の他の例や、コンテキスト間での他の例と、頻繁な単語の類似性を過小評価していることがわかった。
我々は、この高頻度単語の類似性の過小評価は、高頻度単語と低頻度単語の表現幾何学の違いによるものであると推測する。
論文 参考訳(メタデータ) (2022-05-10T18:00:06Z) - Attributable Visual Similarity Learning [90.69718495533144]
本稿では、画像間のより正確で説明可能な類似度測定のための帰属的視覚類似度学習(AVSL)フレームワークを提案する。
人間の意味的類似性認知に動機づけられた2つの画像とグラフとの類似性を表現するために,一般化された類似性学習パラダイムを提案する。
CUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、既存の深い類似性学習方法よりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2022-03-28T17:35:31Z) - Kernel distance measures for time series, random fields and other
structured data [71.61147615789537]
kdiffは、構造化データのインスタンス間の距離を推定するためのカーネルベースの新しい尺度である。
これはインスタンス間の自己類似性と交差類似性の両方を考慮し、距離分布の低い定量値を用いて定義される。
kdiffをクラスタリングと分類問題のための距離尺度として用いた分離性条件について,いくつかの理論的結果が得られた。
論文 参考訳(メタデータ) (2021-09-29T22:54:17Z) - User-friendly Comparison of Similarity Algorithms on Wikidata [2.8551587610394904]
ウィキデータにおけるQnode間の類似性のフレキシブルな計算を可能にするユーザフレンドリーなインタフェースを提案する。
現在、類似性インタフェースは、グラフ埋め込み(TransE、ComplEx)、テキスト埋め込み(BERT)、クラスベースの類似性という4つのアルゴリズムをサポートしている。
また、Wikidataの任意のQnodeに対して、最もよく似た隣人を計算できるREST APIも提供しています。
論文 参考訳(メタデータ) (2021-08-11T18:59:25Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。