論文の概要: Semi-Parametric Retrieval via Binary Bag-of-Tokens Index
- arxiv url: http://arxiv.org/abs/2405.01924v2
- Date: Thu, 06 Mar 2025 10:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:56:41.782108
- Title: Semi-Parametric Retrieval via Binary Bag-of-Tokens Index
- Title(参考訳): 双対バグ・オブ・トケンズ指標による半パラメトリック検索
- Authors: Jiawei Zhou, Li Dong, Furu Wei, Lei Chen,
- Abstract要約: SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
- 参考スコア(独自算出の注目度): 71.78109794895065
- License:
- Abstract: Information retrieval has transitioned from standalone systems into essential components across broader applications, with indexing efficiency, cost-effectiveness, and freshness becoming increasingly critical yet often overlooked. In this paper, we introduce SemI-parametric Disentangled Retrieval (SiDR), a bi-encoder retrieval framework that decouples retrieval index from neural parameters to enable efficient, low-cost, and parameter-agnostic indexing for emerging use cases. Specifically, in addition to using embeddings as indexes like existing neural retrieval methods, SiDR supports a non-parametric tokenization index for search, achieving BM25-like indexing complexity with significantly better effectiveness. Our comprehensive evaluation across 16 retrieval benchmarks demonstrates that SiDR outperforms both neural and term-based retrieval baselines under the same indexing workload: (i) When using an embedding-based index, SiDR exceeds the performance of conventional neural retrievers while maintaining similar training complexity; (ii) When using a tokenization-based index, SiDR drastically reduces indexing cost and time, matching the complexity of traditional term-based retrieval, while consistently outperforming BM25 on all in-domain datasets; (iii) Additionally, we introduce a late parametric mechanism that matches BM25 index preparation time while outperforming other neural retrieval baselines in effectiveness.
- Abstract(参考訳): 情報検索は、スタンドアローンシステムから、より広範なアプリケーションにまたがる重要なコンポーネントへと移行し、索引付け効率、コスト効率、新鮮さはますます重要視されるが、しばしば見過ごされる。
本稿では,SemI-parametric Disentangled Retrieval (SiDR)について紹介する。SemI-parametric Disentangled Retrieval(SiDR)は,ニューラルパラメータから検索インデックスを分離して,新興ユースケースの効率,低コスト,パラメータに依存しないインデックス作成を可能にする,双方向エンコーダ検索フレームワークである。
具体的には、既存のニューラル検索手法のようなインデックスとして埋め込みを使用することに加えて、SiDRは検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
16の検索ベンチマークによる総合的な評価は、SiDRがニューラルベースとタームベースの両方の検索ベースラインを同じインデックス化作業量で上回っていることを示している。
i) 埋め込み型指標を用いた場合、SiDRはトレーニングの複雑さを保ちながら、従来のニューラルレトリバーの性能を上回る。
(II)トークン化ベースのインデックスを使用する場合、SiDRはインデックス作成コストと時間を大幅に削減し、従来の用語ベースの検索の複雑さにマッチすると同時に、すべてのドメイン内のデータセットでBM25を一貫して上回ります。
さらに, BM25インデックス作成時間に適合する遅延パラメトリック機構を導入し, 他のニューラルネットワークベースラインよりも有効性が高いことを示す。
関連論文リスト
- Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - Web image search engine based on LSH index and CNN Resnet50 [0.0]
そこで我々は、CBIRシステムを実装するためにLocality Sensitive Hashing(LSH)インデックスを採用した。
具体的には、画像から深い特徴を抽出するために転送学習技術を利用する。
次に、前述の2つのCNNの上に構築された、完全に接続されたディープニューラルネットワークを試す。
論文 参考訳(メタデータ) (2021-08-20T14:43:41Z) - Partial 3D Object Retrieval using Local Binary QUICCI Descriptors and
Dissimilarity Tree Indexing [2.922007656878633]
Quick Intersection Count Change Image(QUICCI)に基づく高精度かつ効率的な部分的3次元オブジェクト検索のための完全パイプラインの提案
QUICCIクエリ記述子の変更が、部分的検索にどのように理想的であるかを示す。
局所記述子の広い空間の探索を著しく高速化する「異種木」という索引付け構造を提案する。
論文 参考訳(メタデータ) (2021-07-07T17:30:47Z) - Sketches image analysis: Web image search engine usingLSH index and DNN
InceptionV3 [0.0]
ディープ機能で高速な類似度検索を可能にするために、Locality Sensitive Hashing(LSH) Index上にWebイメージ検索エンジンを実装します。
画像からの深い特徴抽出に転送学習を利用する。
論文 参考訳(メタデータ) (2021-05-03T20:01:54Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。