論文の概要: Constructing Tree-based Index for Efficient and Effective Dense
Retrieval
- arxiv url: http://arxiv.org/abs/2304.11943v1
- Date: Mon, 24 Apr 2023 09:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 15:30:41.520487
- Title: Constructing Tree-based Index for Efficient and Effective Dense
Retrieval
- Title(参考訳): 効率的な高密度検索のための木質指標の構築
- Authors: Haitao Li, Qingyao Ai, Jingtao Zhan, Jiaxin Mao, Yiqun Liu, Zheng Liu,
Zhao Cao
- Abstract要約: JTRは、TReeベースのインデックスとクエリエンコーディングの合同最適化の略である。
我々は、木に基づくインデックスとクエリエンコーダをエンドツーエンドにトレーニングするために、新しい統合されたコントラスト学習損失を設計する。
実験結果から,JTRは高いシステム効率を維持しつつ,検索性能が向上することが示された。
- 参考スコア(独自算出の注目度): 26.706985694158384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that Dense Retrieval (DR) techniques can
significantly improve the performance of first-stage retrieval in IR systems.
Despite its empirical effectiveness, the application of DR is still limited. In
contrast to statistic retrieval models that rely on highly efficient inverted
index solutions, DR models build dense embeddings that are difficult to be
pre-processed with most existing search indexing systems. To avoid the
expensive cost of brute-force search, the Approximate Nearest Neighbor (ANN)
algorithm and corresponding indexes are widely applied to speed up the
inference process of DR models. Unfortunately, while ANN can improve the
efficiency of DR models, it usually comes with a significant price on retrieval
performance.
To solve this issue, we propose JTR, which stands for Joint optimization of
TRee-based index and query encoding. Specifically, we design a new unified
contrastive learning loss to train tree-based index and query encoder in an
end-to-end manner. The tree-based negative sampling strategy is applied to make
the tree have the maximum heap property, which supports the effectiveness of
beam search well. Moreover, we treat the cluster assignment as an optimization
problem to update the tree-based index that allows overlapped clustering. We
evaluate JTR on numerous popular retrieval benchmarks. Experimental results
show that JTR achieves better retrieval performance while retaining high system
efficiency compared with widely-adopted baselines. It provides a potential
solution to balance efficiency and effectiveness in neural retrieval system
designs.
- Abstract(参考訳): 近年の研究では、Dense Retrieval(DR)技術はIRシステムにおける第1段階検索の性能を大幅に向上させることができることが示されている。
実験的な効果にもかかわらず、DRの応用はまだ限られている。
高効率な逆インデックスソリューションに依存する統計検索モデルとは対照的に、DRモデルは既存のほとんどの検索インデックスシステムで事前処理が難しい密な埋め込みを構築する。
ブルートフォース探索の費用のかかるコストを避けるため、近似近接近傍(ann)アルゴリズムと対応するインデックスは、drモデルの推論プロセスを高速化するために広く適用されている。
残念なことに、ANNはDRモデルの効率を改善することができるが、通常、検索性能にかなりの価格がつく。
この問題を解決するために,TRee ベースのインデックスとクエリエンコーディングの協調最適化のための JTR を提案する。
具体的には、木ベースのインデックスとクエリエンコーダをエンドツーエンドでトレーニングするために、新しい統合コントラスト学習損失を設計する。
木を最大ヒープ特性にするために木に基づく負のサンプリング戦略が適用され、ビーム探索の有効性が向上した。
さらに,重複クラスタリングを可能にする木ベースのインデックスを更新するために,クラスタ割り当てを最適化問題として扱う。
JTRを多くの検索ベンチマークで評価する。
実験結果から,JTRは広く吸収されたベースラインに比べて高いシステム効率を維持しつつ,検索性能が向上することが示された。
ニューラル検索システム設計における効率性と効率性のバランスをとるための潜在的なソリューションを提供する。
関連論文リスト
- Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - DeeperImpact: Optimizing Sparse Learned Index Structures [4.92919246305126]
我々は、SPLADEの最も効果的なバージョンと有効性ギャップを狭めることに重点を置いている。
その結果,SPLADEの最も有効なバージョンとの有効性ギャップは著しく狭められた。
論文 参考訳(メタデータ) (2024-05-27T12:08:59Z) - Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。
我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。
NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文 参考訳(メタデータ) (2023-12-21T02:48:44Z) - Efficient Non-Parametric Optimizer Search for Diverse Tasks [93.64739408827604]
興味のあるタスクを直接検索できる,スケーラブルで汎用的なフレームワークを初めて提示する。
基礎となる数学表現の自然木構造に着想を得て、空間を超木に再配置する。
我々は,モンテカルロ法を木探索に適用し,レジェクションサンプリングと等価形状検出を備える。
論文 参考訳(メタデータ) (2022-09-27T17:51:31Z) - Cascaded Fast and Slow Models for Efficient Semantic Code Search [46.53530668938728]
本稿では,高速かつ低速なモデルを用いた効率的かつ高精度な意味コード検索フレームワークを提案する。
提案したカスケードアプローチは効率的でスケーラブルなだけでなく,最先端の結果も達成している。
論文 参考訳(メタデータ) (2021-10-15T02:23:35Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - CARMI: A Cache-Aware Learned Index with a Cost-based Construction
Algorithm [1.9798034349981157]
Recursive Model Index (RMI) フレームワークの効率を改善するために,キャッシュ認識型学習インデックス (CARMI) の設計を提案する。
学習指標の最適設計を最適化問題として探索する問題を定式化し,それを解くための動的プログラミングアルゴリズムを提案する。
実験の結果,ベースラインよりも高い性能でインデックスを構築することができることがわかった。
論文 参考訳(メタデータ) (2021-03-01T09:20:53Z) - Off-Policy Reinforcement Learning for Efficient and Effective GAN
Architecture Search [50.40004966087121]
本稿では,GANアーキテクチャ探索のための強化学習に基づくニューラルアーキテクチャ探索手法を提案する。
鍵となる考え方は、よりスムーズなアーキテクチャサンプリングのためのマルコフ決定プロセス(MDP)として、GANアーキテクチャ探索問題を定式化することである。
我々は,従来の政策によって生成されたサンプルを効率的に活用する,非政治的なGANアーキテクチャ探索アルゴリズムを利用する。
論文 参考訳(メタデータ) (2020-07-17T18:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。