論文の概要: SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval
- arxiv url: http://arxiv.org/abs/2109.10086v1
- Date: Tue, 21 Sep 2021 10:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:35:43.496644
- Title: SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval
- Title(参考訳): SPLADE v2:情報検索のための疎語彙拡張モデル
- Authors: Thibault Formal, Carlos Lassance, Benjamin Piwowarski, St\'ephane
Clinchant
- Abstract要約: SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 11.38022203865326
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In neural Information Retrieval (IR), ongoing research is directed towards
improving the first retriever in ranking pipelines. Learning dense embeddings
to conduct retrieval using efficient approximate nearest neighbors methods has
proven to work well. Meanwhile, there has been a growing interest in learning
\emph{sparse} representations for documents and queries, that could inherit
from the desirable properties of bag-of-words models such as the exact matching
of terms and the efficiency of inverted indexes. Introduced recently, the
SPLADE model provides highly sparse representations and competitive results
with respect to state-of-the-art dense and sparse approaches. In this paper, we
build on SPLADE and propose several significant improvements in terms of
effectiveness and/or efficiency. More specifically, we modify the pooling
mechanism, benchmark a model solely based on document expansion, and introduce
models trained with distillation. We also report results on the BEIR benchmark.
Overall, SPLADE is considerably improved with more than $9$\% gains on NDCG@10
on TREC DL 2019, leading to state-of-the-art results on the BEIR benchmark.
- Abstract(参考訳): ニューラル・インフォメーション・リトリーバル(IR)では、パイプラインランキングにおける最初のレトリバーの改善に向けた研究が進行中である。
効率的な近似近接法を用いて探索を行うための密埋め込みの学習は、うまく機能することが証明されている。
一方、文書やクエリーに対する 'emph{sparse} 表現の学習への関心が高まっており、これは語句の正確なマッチングや逆インデックスの効率など、単語のバッグ・オブ・ワードモデルの望ましい特性から受け継がれている。
最近導入されたSPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
本稿では, SPLADE 上に構築し, 有効性および効率性に関していくつかの重要な改善点を提案する。
より具体的には、プーリング機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
また、beirベンチマークの結果を報告する。
全体として、SPLADEは、TREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
関連論文リスト
- Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - DeeperImpact: Optimizing Sparse Learned Index Structures [4.92919246305126]
我々は、SPLADEの最も効果的なバージョンと有効性ギャップを狭めることに重点を置いている。
その結果,SPLADEの最も有効なバージョンとの有効性ギャップは著しく狭められた。
論文 参考訳(メタデータ) (2024-05-27T12:08:59Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding [2.0257616108612373]
本稿では,大規模言語モデル拡張によるモデルに依存しないドキュメントレベルの埋め込みフレームワークを提案する。
我々は広く利用されている検索モデルの有効性を大幅に改善することができた。
論文 参考訳(メタデータ) (2024-04-08T19:29:07Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - CascadER: Cross-Modal Cascading for Knowledge Graph Link Prediction [22.96768147978534]
本稿では,効率を向上しつつ,完全アンサンブルのランキング精度を維持するための階層型ランキングアーキテクチャCascaderを提案する。
CascadER は LM を用いて、より効率的な KGE の出力を再現し、KGE の精度向上を最大化しつつ、LM を最小限に呼び出すための適応的なサブセット選択方式に依存している。
実験により, モデル間の多様性と個々のモデルの信頼性信号の保存がカスケーダの有効性を説明するのに有効であることがわかった。
論文 参考訳(メタデータ) (2022-05-16T22:55:45Z) - From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective [15.542082655342476]
スパース拡張ベースのレトリバーであるSPLADEを使って構築し、密集したモデルと同じトレーニング改善の恩恵を受けることができるかを示します。
ドメイン内およびゼロショット設定における有効性と効率の関係について検討する。
論文 参考訳(メタデータ) (2022-05-10T08:08:43Z) - Curriculum Learning for Dense Retrieval Distillation [20.25741148622744]
CL-DRDと呼ばれる総合的なカリキュラム学習に基づく最適化フレームワークを提案する。
CL-DRDは、リグレード(教師)モデルによって生成されたトレーニングデータの難易度を制御する。
3つのパブリックパス検索データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-04-28T17:42:21Z) - LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text
Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。
再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文 参考訳(メタデータ) (2022-03-11T18:53:12Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。