論文の概要: COS-Mix: Cosine Similarity and Distance Fusion for Improved Information Retrieval
- arxiv url: http://arxiv.org/abs/2406.00638v1
- Date: Sun, 02 Jun 2024 06:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 23:05:27.834284
- Title: COS-Mix: Cosine Similarity and Distance Fusion for Improved Information Retrieval
- Title(参考訳): COS-Mix:情報検索のためのコサイン類似性と距離融合
- Authors: Kush Juvekar, Anupam Purwar,
- Abstract要約: 本研究では,レトリーバル拡張生成(RAG)のための新しいハイブリッド検索手法を提案する。
伝統的なコサイン類似度尺度は、高次元空間におけるベクトル間の類似度を捉えるために広く用いられている。
ベクトル間の相似性を定量化することにより、相補的な視点を提供するためにコサイン距離測度を組み込む。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This study proposes a novel hybrid retrieval strategy for Retrieval-Augmented Generation (RAG) that integrates cosine similarity and cosine distance measures to improve retrieval performance, particularly for sparse data. The traditional cosine similarity measure is widely used to capture the similarity between vectors in high-dimensional spaces. However, it has been shown that this measure can yield arbitrary results in certain scenarios. To address this limitation, we incorporate cosine distance measures to provide a complementary perspective by quantifying the dissimilarity between vectors. Our approach is experimented on proprietary data, unlike recent publications that have used open-source datasets. The proposed method demonstrates enhanced retrieval performance and provides a more comprehensive understanding of the semantic relationships between documents or items. This hybrid strategy offers a promising solution for efficiently and accurately retrieving relevant information in knowledge-intensive applications, leveraging techniques such as BM25 (sparse) retrieval , vector (Dense) retrieval, and cosine distance based retrieval to facilitate efficient information retrieval.
- Abstract(参考訳): 本研究では,特にスパースデータにおいて,コサイン類似度とコサイン距離を両立させるハイブリッド検索手法を提案する。
伝統的なコサイン類似度尺度は、高次元空間におけるベクトル間の類似度を捉えるために広く用いられている。
しかし、この測度は特定のシナリオにおいて任意の結果が得られることが示されている。
この制限に対処するために、ベクトル間の相似性を定量化し、相補的な視点を提供するためにコサイン距離測度を組み込む。
我々のアプローチは、オープンソースデータセットを使用した最近の出版物とは異なり、プロプライエタリなデータで実験されています。
提案手法は,検索性能の向上を実証し,文書や項目間の意味的関係をより包括的に理解する。
このハイブリッド戦略は、BM25(sparse)検索、ベクトル(Dense)検索、コサイン距離に基づく検索といった技術を活用して、知識集約型アプリケーションにおける関連情報を効率的かつ正確に検索するための有望なソリューションを提供する。
関連論文リスト
- VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and
Optimized Search [1.0411820336052784]
本稿では、高度なアルゴリズム、埋め込み、インデックス化技術を活用して洗練された検索を行うVectorSearchを提案する。
提案手法は,革新的なマルチベクタ探索操作と高度な言語モデルによる検索の符号化を利用して,検索精度を大幅に向上させる。
実世界のデータセットの実験では、VectorSearchがベースラインのメトリクスを上回っている。
論文 参考訳(メタデータ) (2024-09-25T21:58:08Z) - Efficient Retrieval with Learned Similarities [2.729516456192901]
最先端の検索アルゴリズムは、学習された類似点に移行した。
筆者らは,Mixture-of-Logits (MoL) が普遍近似であり,学習された類似度関数を全て表現できることを示した。
MoLはレコメンデーション検索タスクに新たな最先端結果を設定し、学習した類似性を持つ近似トップk検索は、最大2桁のレイテンシでベースラインを上回ります。
論文 参考訳(メタデータ) (2024-07-22T08:19:34Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - Efficient Semantic Matching with Hypercolumn Correlation [58.92933923647451]
HCCNetは効率的で効果的なセマンティックマッチング手法である。
マルチスケール相関写像の完全なポテンシャルを利用する。
4D相関マップ上では、高価なマッチング関係のマイニングに頼っている。
論文 参考訳(メタデータ) (2023-11-07T20:40:07Z) - Relation-aware Ensemble Learning for Knowledge Graph Embedding [68.94900786314666]
我々は,既存の手法を関係性に配慮した方法で活用し,アンサンブルを学習することを提案する。
関係認識アンサンブルを用いてこれらのセマンティクスを探索すると、一般的なアンサンブル法よりもはるかに大きな検索空間が得られる。
本稿では,リレーショナルなアンサンブル重みを独立に検索する分割探索合成アルゴリズムRelEns-DSCを提案する。
論文 参考訳(メタデータ) (2023-10-13T07:40:12Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Itemset Utility Maximization with Correlation Measure [8.581840054840335]
高ユーティリティアイテムセットマイニング(HUIM)は、興味深いが隠された情報(例えば、利益とリスク)を見つけるために使用される。
本稿では,Coium(Coium)を用いたアイテムセット実用性最大化という新しいアルゴリズムを提案する。
2つの上界と4つのプルーニング戦略を用いて探索空間を効果的にプルークする。また、適用された上界を線形時間と空間で計算・保存するために、ユーティリティービンと呼ばれる簡潔なアレイ構造を用いる。
論文 参考訳(メタデータ) (2022-08-26T10:06:24Z) - Recall@k Surrogate Loss with Large Batches and Similarity Mixup [62.67458021725227]
微分不可能な場合、評価計量の勾配降下による直接最適化は不可能である。
本研究は,リコールにおける相異なるサロゲート損失を提案する。
提案手法は,複数の画像検索ベンチマークにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-08-25T11:09:11Z) - PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense
Passage Retrieval [87.68667887072324]
本稿では,クエリ中心とPAssage中心のsmilarity Relations(PAIR)を併用した新しい手法を提案する。
本稿では,2種類の類似性関係の形式的定式化を導入することにより,3つの主要な技術的貢献を行う。
MSMARCOとNatural Questionsの両方のデータセットにおいて、従来の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2021-08-13T02:07:43Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。