論文の概要: Boosted Dense Retriever
- arxiv url: http://arxiv.org/abs/2112.07771v1
- Date: Tue, 14 Dec 2021 22:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 05:29:40.513623
- Title: Boosted Dense Retriever
- Title(参考訳): Boosted Dense Retriever
- Authors: Patrick Lewis, Barlas O\u{g}uz, Wenhan Xiong, Fabio Petroni, Wen-tau
Yih, Sebastian Riedel
- Abstract要約: DrBoostはテスト時に通常の高密度レトリバーをドロップインで置き換えるものだ。
表現を4倍コンパクトにし、検索結果に匹敵する結果をもたらす。
DrBoostは粗い量子化による近似探索において驚くほどよく機能する。
- 参考スコア(独自算出の注目度): 27.655674798296754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose DrBoost, a dense retrieval ensemble inspired by boosting. DrBoost
is trained in stages: each component model is learned sequentially and
specialized by focusing only on retrieval mistakes made by the current
ensemble. The final representation is the concatenation of the output vectors
of all the component models, making it a drop-in replacement for standard dense
retrievers at test time. DrBoost enjoys several advantages compared to standard
dense retrieval models. It produces representations which are 4x more compact,
while delivering comparable retrieval results. It also performs surprisingly
well under approximate search with coarse quantization, reducing latency and
bandwidth needs by another 4x. In practice, this can make the difference
between serving indices from disk versus from memory, paving the way for much
cheaper deployments.
- Abstract(参考訳): 本稿では,強化にインスパイアされた高密度検索アンサンブルDrBoostを提案する。
drboostは段階的にトレーニングされ、各コンポーネントモデルは順次学習され、現在のアンサンブルによる検索ミスのみに焦点を当てて専門化される。
最後の表現は、すべてのコンポーネントモデルの出力ベクトルの連結であり、テスト時に標準の高密度レトリバーをドロップインで置き換えるものである。
DrBoostは、標準的な高密度検索モデルと比較していくつかの利点がある。
4倍のコンパクトな表現を生成し、同等の検索結果を提供する。
また、粗い量子化による近似探索でも驚くほどよく動作し、レイテンシと帯域幅を4倍削減できる。
実際には、ディスクからのインデックス提供とメモリからのインデックス提供の違いを解消し、はるかに安価なデプロイメントを実現することができる。
関連論文リスト
- Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes? [62.57689536630933]
本稿では,オープンソースのLucene検索ライブラリを用いたBEIRデータセットの実験結果について述べる。
本研究は,高密度かつ疎密なレトリバーの設計空間を理解するための,今日の検索実践者へのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-09-10T12:46:23Z) - The Many Faces of Optimal Weak-to-Strong Learning [10.985323882432086]
提案手法は, サンプルの複雑さを証明し得る, 驚くほど単純なブースティングアルゴリズムである。
我々のパイロット実験研究は、我々の新しいアルゴリズムが大規模なデータセットで以前のアルゴリズムより優れていることを示唆している。
論文 参考訳(メタデータ) (2024-08-30T09:38:51Z) - Locally-Adaptive Quantization for Streaming Vector Search [1.151101202055732]
高効率ベクトル圧縮法であるLocally-Adaptive Vector Quantization (LVQ)は、非進化データベースに対して最先端の探索性能を得る。
LVQの2つの改善点として,Turbo LVQとMulti-means LVQを導入し,検索性能を28%,27%向上させた。
我々の研究は、LVQとその新しい変種が高速ベクトル探索を可能にし、同じ分散データに対して、最も近い競合である9.4倍の性能を発揮することを示した。
論文 参考訳(メタデータ) (2024-02-03T05:43:39Z) - LeanVec: Searching vectors faster by making them fit [1.0863382547662974]
本稿では,高次元ベクトル上での類似性探索を高速化するために,線形次元減少とベクトル量子化を組み合わせたフレームワークLeanVecを提案する。
LeanVecは、検索のスループットを最大3.7倍改善し、インデックスビルド時間を最大4.9倍高速化する、最先端の結果を生成する。
論文 参考訳(メタデータ) (2023-12-26T21:14:59Z) - Boot and Switch: Alternating Distillation for Zero-Shot Dense Retrieval [50.47192086219752]
$texttABEL$は、ゼロショット設定でのパス検索を強化するための、シンプルだが効果的な教師なしのメソッドである。
ラベル付きデータに対して$texttABEL$を微調整するか、既存の教師付き高密度検索と統合することにより、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-11-27T06:22:57Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - CITADEL: Conditional Token Interaction via Dynamic Lexical Routing for
Efficient and Effective Multi-Vector Retrieval [72.90850213615427]
マルチベクター検索法はスパース(例えばBM25)と高密度(例えばDPR)レトリバーの利点を組み合わせたものである。
これらの手法は桁違いに遅く、単ベクトルの手法に比べてインデックスを格納するのにはるかに多くのスペースを必要とする。
動的語彙ルーティング(CITADEL)による条件付きトークンの相互作用を,効率的かつ効率的なマルチベクタ検索のために提案する。
論文 参考訳(メタデータ) (2022-11-18T18:27:35Z) - ProBoost: a Boosting Method for Probabilistic Classifiers [55.970609838687864]
ProBoostは確率的分類器のための新しいブースティングアルゴリズムである。
各トレーニングサンプルの不確実性を使用して、最も困難で不確実なものを決定する。
これは、最も不確実性が高いと判明したサンプルに徐々に焦点をあてる配列を生成する。
論文 参考訳(メタデータ) (2022-09-04T12:49:20Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - KGBoost: A Classification-based Knowledge Base Completion Method with
Negative Sampling [29.14178162494542]
KGBoostは、リンク予測の欠如のために強力な分類器を訓練する新しい方法である。
我々は、複数のベンチマークデータセットで実験を行い、KGBoostがほとんどのデータセットで最先端のメソッドより優れていることを示す。
エンドツーエンドの最適化によって訓練されたモデルと比較して、KGBoostは、より小さなモデルサイズを実現するために、低次元設定下でうまく機能する。
論文 参考訳(メタデータ) (2021-12-17T06:19:37Z) - MP-Boost: Minipatch Boosting via Adaptive Feature and Observation
Sampling [0.0]
MP-BoostはAdaBoostを緩くベースとしたアルゴリズムで、インスタンスと機能の小さなサブセットを適応的に選択することで学習する。
様々な二項分類タスクにおいて,提案手法の解釈可能性,比較精度,計算時間について実験的に検証した。
論文 参考訳(メタデータ) (2020-11-14T04:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。