論文の概要: DeeperImpact: Optimizing Sparse Learned Index Structures
- arxiv url: http://arxiv.org/abs/2405.17093v2
- Date: Sat, 06 Jul 2024 04:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 23:33:23.231800
- Title: DeeperImpact: Optimizing Sparse Learned Index Structures
- Title(参考訳): DeeperImpact: スパース学習インデックス構造を最適化する
- Authors: Soyuj Basnet, Jerry Gou, Antonio Mallia, Torsten Suel,
- Abstract要約: 我々は、SPLADEの最も効果的なバージョンと有効性ギャップを狭めることに重点を置いている。
その結果,SPLADEの最も有効なバージョンとの有効性ギャップは著しく狭められた。
- 参考スコア(独自算出の注目度): 4.92919246305126
- License:
- Abstract: A lot of recent work has focused on sparse learned indexes that use deep neural architectures to significantly improve retrieval quality while keeping the efficiency benefits of the inverted index. While such sparse learned structures achieve effectiveness far beyond those of traditional inverted index-based rankers, there is still a gap in effectiveness to the best dense retrievers, or even to sparse methods that leverage more expensive optimizations such as query expansion and query term weighting. We focus on narrowing this gap by revisiting and optimizing DeepImpact, a sparse retrieval approach that uses DocT5Query for document expansion followed by a BERT language model to learn impact scores for document terms. We first reinvestigate the expansion process and find that the recently proposed Doc2Query -- query filtration does not enhance retrieval quality when used with DeepImpact. Instead, substituting T5 with a fine-tuned Llama 2 model for query prediction results in a considerable improvement. Subsequently, we study training strategies that have proven effective for other models, in particular the use of hard negatives, distillation, and pre-trained CoCondenser model initialization. Our results substantially narrow the effectiveness gap with the most effective versions of SPLADE.
- Abstract(参考訳): 近年の多くの研究は、深いニューラルネットワークを使用して検索品質を大幅に改善し、逆インデックスの効率性を維持しながら、学習されたインデックスのスパースに重点を置いている。
このようなスパース学習構造は、従来の逆インデックスベースのランク付けよりもはるかに優れているが、最高の高密度検索や、クエリ拡張やクエリ項重み付けといったより高価な最適化を利用するスパース手法にはまだ効果の差がある。
ドキュメント拡張にDocT5Queryを使用したスパース検索アプローチであるDeepImpactを再考し、最適化することで、このギャップを狭めることに重点を置いている。
私たちはまず、拡張プロセスを再検討し、最近提案されたDoc2Query -- クエリフィルタリングがDeepImpactで使用する場合、検索品質を向上しないことがわかった。
代わりに、クエリ予測のための微調整されたLlama 2モデルでT5を置換すると、かなりの改善がもたらされる。
その後、他のモデル、特にハードネガティブ、蒸留、および事前訓練されたCoCondenserモデル初期化の使用に有効なトレーニング戦略について検討した。
その結果,SPLADEの最も有効なバージョンとの有効性ギャップは著しく狭められた。
関連論文リスト
- OStr-DARTS: Differentiable Neural Architecture Search based on Operation Strength [70.76342136866413]
分散アーキテクチャサーチ(DARTS)は、効果的なニューラルネットワークサーチの有望な技術として登場した。
DARTSは、アーキテクチャの劣化につながる、よく知られた退化問題に悩まされている。
最終損失に対する操作の重要性を推定する操作強度に基づく新しい基準を提案する。
論文 参考訳(メタデータ) (2024-09-22T13:16:07Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Faster Learned Sparse Retrieval with Block-Max Pruning [11.080810272211906]
本稿では,学習されたスパース検索環境に出現するインデックスに適した,革新的な動的プルーニング戦略であるBlock-Max Pruning(BMP)を紹介する。
BMPは既存の動的プルーニング戦略を大幅に上回り、安全な検索コンテキストにおいて非並列効率を提供する。
論文 参考訳(メタデータ) (2024-05-02T09:26:30Z) - Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。
我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。
NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文 参考訳(メタデータ) (2023-12-21T02:48:44Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Constructing Tree-based Index for Efficient and Effective Dense
Retrieval [26.706985694158384]
JTRは、TReeベースのインデックスとクエリエンコーディングの合同最適化の略である。
我々は、木に基づくインデックスとクエリエンコーダをエンドツーエンドにトレーニングするために、新しい統合されたコントラスト学習損失を設計する。
実験結果から,JTRは高いシステム効率を維持しつつ,検索性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-24T09:25:39Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文 参考訳(メタデータ) (2020-04-30T18:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。