Fugu-MT 論文翻訳(概要): SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval

論文の概要: SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval

arxiv url: http://arxiv.org/abs/2109.10086v1
Date: Tue, 21 Sep 2021 10:43:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-22 14:35:43.496644
Title: SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval
Title（参考訳）: SPLADE v2:情報検索のための疎語彙拡張モデル
Authors: Thibault Formal, Carlos Lassance, Benjamin Piwowarski, St\'ephane Clinchant
Abstract要約: SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
参考スコア（独自算出の注目度）: 11.38022203865326
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In neural Information Retrieval (IR), ongoing research is directed towards improving the first retriever in ranking pipelines. Learning dense embeddings to conduct retrieval using efficient approximate nearest neighbors methods has proven to work well. Meanwhile, there has been a growing interest in learning \emph{sparse} representations for documents and queries, that could inherit from the desirable properties of bag-of-words models such as the exact matching of terms and the efficiency of inverted indexes. Introduced recently, the SPLADE model provides highly sparse representations and competitive results with respect to state-of-the-art dense and sparse approaches. In this paper, we build on SPLADE and propose several significant improvements in terms of effectiveness and/or efficiency. More specifically, we modify the pooling mechanism, benchmark a model solely based on document expansion, and introduce models trained with distillation. We also report results on the BEIR benchmark. Overall, SPLADE is considerably improved with more than $9$\% gains on NDCG@10 on TREC DL 2019, leading to state-of-the-art results on the BEIR benchmark.
Abstract（参考訳）: ニューラル・インフォメーション・リトリーバル(IR)では、パイプラインランキングにおける最初のレトリバーの改善に向けた研究が進行中である。効率的な近似近接法を用いて探索を行うための密埋め込みの学習は、うまく機能することが証明されている。一方、文書やクエリーに対する 'emph{sparse} 表現の学習への関心が高まっており、これは語句の正確なマッチングや逆インデックスの効率など、単語のバッグ・オブ・ワードモデルの望ましい特性から受け継がれている。最近導入されたSPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。本稿では, SPLADE 上に構築し, 有効性および効率性に関していくつかの重要な改善点を提案する。より具体的には、プーリング機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。また、beirベンチマークの結果を報告する。全体として、SPLADEは、TREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。

関連論文リスト

RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文参考訳（メタデータ） (2025-04-07T15:27:37Z)
Exploring Training and Inference Scaling Laws in Generative Retrieval [50.82554729023865]
モデルサイズ,トレーニングデータスケール,推論時間計算が生成的検索性能にどのように影響するかを検討する。実験の結果,n-gram-based method はトレーニング法と推論法の両方と強く一致していることがわかった。 LLaMAモデルはT5モデルより一貫して優れており、生成検索におけるデコーダのみの大きなモデルに対して特に有利であることが示唆された。
論文参考訳（メタデータ） (2025-03-24T17:59:03Z)
Pseudo Relevance Feedback is Enough to Close the Gap Between Small and Large Dense Retrieval Models [29.934928091542375]
大規模言語モデル (LLM) のバックボーンに高密度レトリバーを拡張させることは, 検索効率を向上させる主要な戦略である。本稿では,機能ベースの擬似関連フィードバック(PRF)フレームワークであるPromptPRFを紹介する。
論文参考訳（メタデータ） (2025-03-19T04:30:20Z)
HuixiangDou2: A Robustly Optimized GraphRAG Approach [11.91228019623924]
グラフベースのRetrieval-Augmented Generation (GraphRAG)は、動的検索のためのグラフとして構造化することで、この問題に対処する。堅牢に最適化されたGraphRAGフレームワークであるHixiangDou2を紹介する。具体的には、二重レベル検索の有効性を活用し、32kコンテキストでその性能を最適化する。
論文参考訳（メタデータ） (2025-03-09T06:20:24Z)
Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。 BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2024-09-21T18:39:53Z)
DeeperImpact: Optimizing Sparse Learned Index Structures [4.92919246305126]
我々は、SPLADEの最も効果的なバージョンと有効性ギャップを狭めることに重点を置いている。その結果,SPLADEの最も有効なバージョンとの有効性ギャップは著しく狭められた。
論文参考訳（メタデータ） (2024-05-27T12:08:59Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
LLM-Augmented Retrieval: Enhancing Retrieval Models Through Language Models and Doc-Level Embedding [2.0257616108612373]
本稿では,大規模言語モデル拡張によるモデルに依存しないドキュメントレベルの埋め込みフレームワークを提案する。我々は広く利用されている検索モデルの有効性を大幅に改善することができた。
論文参考訳（メタデータ） (2024-04-08T19:29:07Z)
Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文参考訳（メタデータ） (2023-07-26T08:25:46Z)
SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。 SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文参考訳（メタデータ） (2023-07-19T22:48:02Z)
CascadER: Cross-Modal Cascading for Knowledge Graph Link Prediction [22.96768147978534]
本稿では,効率を向上しつつ,完全アンサンブルのランキング精度を維持するための階層型ランキングアーキテクチャCascaderを提案する。 CascadER は LM を用いて、より効率的な KGE の出力を再現し、KGE の精度向上を最大化しつつ、LM を最小限に呼び出すための適応的なサブセット選択方式に依存している。実験により, モデル間の多様性と個々のモデルの信頼性信号の保存がカスケーダの有効性を説明するのに有効であることがわかった。
論文参考訳（メタデータ） (2022-05-16T22:55:45Z)
From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective [15.542082655342476]
スパース拡張ベースのレトリバーであるSPLADEを使って構築し、密集したモデルと同じトレーニング改善の恩恵を受けることができるかを示します。ドメイン内およびゼロショット設定における有効性と効率の関係について検討する。
論文参考訳（メタデータ） (2022-05-10T08:08:43Z)
Curriculum Learning for Dense Retrieval Distillation [20.25741148622744]
CL-DRDと呼ばれる総合的なカリキュラム学習に基づく最適化フレームワークを提案する。 CL-DRDは、リグレード(教師)モデルによって生成されたトレーニングデータの難易度を制御する。 3つのパブリックパス検索データセットの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-04-28T17:42:21Z)
LaPraDoR: Unsupervised Pretrained Dense Retriever for Zero-Shot Text Retrieval [55.097573036580066]
実験結果から,LaPraDoRは教師付き高密度検索モデルと比較して最先端の性能が得られることがわかった。再ランクと比較すると,1ミリ秒 (22.5倍高速) でレキシコン強化手法を動作させることができるが,性能は良好である。
論文参考訳（メタデータ） (2022-03-11T18:53:12Z)
Enhancing the Generalization for Intent Classification and Out-of-Domain Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文参考訳（メタデータ） (2021-06-28T08:27:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。