論文の概要: LSTM-based Selective Dense Text Retrieval Guided by Sparse Lexical Retrieval
- arxiv url: http://arxiv.org/abs/2502.10639v1
- Date: Sat, 15 Feb 2025 02:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:16.980275
- Title: LSTM-based Selective Dense Text Retrieval Guided by Sparse Lexical Retrieval
- Title(参考訳): sparse Lexical Retrievalで案内されたLSTMに基づく選択的Dense Text Retrieval
- Authors: Yingrui Yang, Parker Carlson, Yifan Qiao, Wentai Xie, Shanxiu He, Tao Yang,
- Abstract要約: CluSDは軽量なクラスタベースのアプローチを採用し、スパース検索結果とクラスタの埋め込みの重複を利用する。
Clukedは部分的な高密度検索をトリガーし、必要に応じてクラスタベースのブロックディスクI/Oを実行する。
本稿では、CluSDを評価し、メモリ内およびディスク上のMS MARCOおよびBEIRデータセットを検索するためのいくつかのベースラインと比較する。
- 参考スコア(独自算出の注目度): 9.934850855769364
- License:
- Abstract: This paper studies fast fusion of dense retrieval and sparse lexical retrieval, and proposes a cluster-based selective dense retrieval method called CluSD guided by sparse lexical retrieval. CluSD takes a lightweight cluster-based approach and exploits the overlap of sparse retrieval results and embedding clusters in a two-stage selection process with an LSTM model to quickly identify relevant clusters while incurring limited extra memory space overhead. CluSD triggers partial dense retrieval and performs cluster-based block disk I/O if needed. This paper evaluates CluSD and compares it with several baselines for searching in-memory and on-disk MS MARCO and BEIR datasets.
- Abstract(参考訳): 本稿では,高密度検索とスパースレキシカル検索の高速融合について検討し,スパースレキシカル検索によって誘導されるクラスタベース選択的高密度検索法であるCluSDを提案する。
CluSDは、軽量なクラスタベースのアプローチを採用し、スパース検索結果の重複と、LSTMモデルによる2段階選択プロセスにおけるクラスタの埋め込みを利用して、限られたメモリ空間オーバーヘッドを発生させながら、関連するクラスタを迅速に識別する。
CluSDは部分的な高密度検索をトリガーし、必要に応じてクラスタベースのブロックディスクI/Oを実行する。
本稿では、CluSDを評価し、メモリ内およびディスク上のMS MARCOおよびBEIRデータセットを検索するためのいくつかのベースラインと比較する。
関連論文リスト
- k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。
この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。
本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2025-02-12T19:50:22Z) - Information-Theoretic Generative Clustering of Documents [24.56214029342293]
文書の集合をクラスタリングするための生成クラスタリング(GC)を$mathrmX$で提示する。
大規模言語モデル(LLM)は確率分布を提供するため、2つの文書間の類似性を厳密に定義することができる。
我々はGCが最先端のパフォーマンスを達成し、従来のクラスタリング手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T06:21:21Z) - Clustering Based on Density Propagation and Subcluster Merging [92.15924057172195]
本稿では,クラスタ数を自動的に決定し,データ空間とグラフ空間の両方に適用可能な密度に基づくノードクラスタリング手法を提案する。
二つのノード間の距離を計算する従来の密度クラスタリング法とは異なり,提案手法は伝播過程を通じて密度を決定する。
論文 参考訳(メタデータ) (2024-11-04T04:09:36Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - A Proposition-Level Clustering Approach for Multi-Document Summarization [82.4616498914049]
クラスタリングアプローチを再検討し、より正確な情報アライメントの提案をグループ化します。
提案手法は,有意な命題を検出し,それらをパラフラスティックなクラスタに分類し,その命題を融合して各クラスタの代表文を生成する。
DUC 2004 とTAC 2011 データセットでは,従来の最先端 MDS 法よりも要約法が優れている。
論文 参考訳(メタデータ) (2021-12-16T10:34:22Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z) - Supervised Enhanced Soft Subspace Clustering (SESSC) for TSK Fuzzy
Classifiers [25.32478253796209]
ファジィc平均クラスタリングアルゴリズムは,高木・スゲノカン(TSK)ファジィ分類器パラメータ推定によく用いられる。
本稿では,クラスタ内コンパクト性,クラスタ間分離,クラスタリングにおけるラベル情報とを同時に考慮した拡張ソフトサブスペースクラスタリング(SESSC)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-27T19:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。