論文の概要: LotusFilter: Fast Diverse Nearest Neighbor Search via a Learned Cutoff Table
- arxiv url: http://arxiv.org/abs/2506.04790v1
- Date: Thu, 05 Jun 2025 09:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.626748
- Title: LotusFilter: Fast Diverse Nearest Neighbor Search via a Learned Cutoff Table
- Title(参考訳): LotusFilter: 学習したカットオフテーブルによる高速な横近検索
- Authors: Yusuke Matsui,
- Abstract要約: 隣接した検索結果を多角化するための後処理モジュールであるLotusFilterを提案する。
フィルタリング中、LotusFilterはテーブルを調べて、候補から冗長なベクトルを削除する。
- 参考スコア(独自算出の注目度): 14.832208701208414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Approximate nearest neighbor search (ANNS) is an essential building block for applications like RAG but can sometimes yield results that are overly similar to each other. In certain scenarios, search results should be similar to the query and yet diverse. We propose LotusFilter, a post-processing module to diversify ANNS results. We precompute a cutoff table summarizing vectors that are close to each other. During the filtering, LotusFilter greedily looks up the table to delete redundant vectors from the candidates. We demonstrated that the LotusFilter operates fast (0.02 [ms/query]) in settings resembling real-world RAG applications, utilizing features such as OpenAI embeddings. Our code is publicly available at https://github.com/matsui528/lotf.
- Abstract(参考訳): 近似近接探索(ANNS)は、RAGのようなアプリケーションにとって必須のビルディングブロックである。
特定のシナリオでは、検索結果はクエリと似ているが、多様であるべきである。
本稿では,ANNS結果の多様化を目的とした後処理モジュールであるLotusFilterを提案する。
互いに近接するベクトルを要約するカットオフテーブルをプリ計算する。
フィルタリング中、LotusFilterはテーブルを調べて、候補から冗長なベクトルを削除する。
私たちは、LotusFilterが実世界のRAGアプリケーションに似た設定で高速(0.02[ms/query])動作し、OpenAIの埋め込みのような機能を活用していることを示した。
私たちのコードはhttps://github.com/matsui528/lotf.comで公開されています。
関連論文リスト
- Billion-scale Similarity Search Using a Hybrid Indexing Approach with Advanced Filtering [49.1574468325115]
本稿では,CPU推論に最適化された数十億規模のデータセット上での複雑なフィルタリング機能を備えた類似度探索のための新しい手法を提案する。
提案手法は,従来のIVF-Flatインデックス構造を拡張し,多次元フィルタを統合する。
提案アルゴリズムは,高次元空間での高速な探索を可能にするため,高密度埋め込みと離散フィルタ特性を組み合わせる。
論文 参考訳(メタデータ) (2025-01-23T07:47:00Z) - PKF: Probabilistic Data Association Kalman Filter for Multi-Object Tracking [39.55428600377688]
我々は,測定値と状態値の確率的相関を持つ新しいカルマンフィルタを導出する。
相関確率は行列の永久値として測定可能な値として計算できることを示す。
シミュレーション実験により, このフィルタは, 確立された連立確率的データアソシエーションフィルタよりも低い追従誤差を達成できることが判明した。
論文 参考訳(メタデータ) (2024-11-10T07:34:31Z) - Visual Multi-Object Tracking with Re-Identification and Occlusion Handling using Labeled Random Finite Sets [10.618186767487993]
本稿では、オブジェクトの出現と隠蔽を解消するオンライン視覚多目的追跡(MOT)アルゴリズムを提案する。
我々の解は、ラベル付きランダム有限集合 (LRFS) フィルタリングアプローチに基づいている。
本稿では,トラックの重なり合う部分とそのサイズを考慮したファジィ検出モデルを提案する。
論文 参考訳(メタデータ) (2024-07-11T21:15:21Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Daisy Bloom Filters [10.428888893980739]
フィルター(英: filter)とは、ある宇宙から与えられた要素のセット$S$(可算集合)の近似を保存するために広く用いられるデータ構造である。
ブルームフィルタを使用する利点は、いくつかの偽陽性が許容されるとき、空間使用量が$S$を正確に保存するために必要なものよりも小さくなることである。
Bloom filter は $textitDaisy Bloom filter$ と呼ばれ、操作を高速に実行し、標準の Bloom filter よりもはるかに少ないスペースを使用する。
論文 参考訳(メタデータ) (2022-05-30T07:22:24Z) - Pruning Networks with Cross-Layer Ranking & k-Reciprocal Nearest Filters [151.2423480789271]
フィルタレベルのネットワークプルーニングには,CLR-RNFと呼ばれる新しいプルーニング法が提案されている。
我々は,CIFAR-10 と ImageNet で画像分類を行い,CLR-RNF が最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-15T04:53:24Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - LSF-Join: Locality Sensitive Filtering for Distributed All-Pairs Set
Similarity Under Skew [58.21885402826496]
全ペアセットの類似性は、大規模で高次元のデータセットであっても広く使われているデータマイニングタスクである。
我々は,全対集合の類似性を近似するために,新しい分散アルゴリズム LSF-Join を提案する。
LSF-Joinは、小さな類似度閾値やスキュー入力セットであっても、最も近いペアを効率的に見つける。
論文 参考訳(メタデータ) (2020-03-06T00:06:20Z) - Superbloom: Bloom filter meets Transformer [20.4500657531462]
自然言語モデルにおける単語片のアイデアを、不透明なID上の機械学習タスクに拡張する。
ハッシュ関数を適用して、Bloomフィルタと同様に、より小さな空間で各idを複数のハッシュトークンにマッピングする。
このBloomフィルタダイジェストに多層トランスフォーマーを適用することで,高精度なモデルが得られることを示す。
論文 参考訳(メタデータ) (2020-02-11T22:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。