論文の概要: Efficiency and Effectiveness of SPLADE Models on Billion-Scale Web Document Title
- arxiv url: http://arxiv.org/abs/2511.22263v1
- Date: Thu, 27 Nov 2025 09:40:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.48779
- Title: Efficiency and Effectiveness of SPLADE Models on Billion-Scale Web Document Title
- Title(参考訳): 数十億規模のWebドキュメントタイトルにおけるSPLADEモデルの有効性と有効性
- Authors: Taeryun Won, Tae Kwan Lee, Hiun Kim, Hyemin Lee,
- Abstract要約: SPLADE と Expanded-SPLADE は BM25 と比較して検索性能が優れていることを示す。
計算コストを軽減するため,文書中心のプルーニングやトップkクエリ項の選択など,プルーニング戦略を導入する。
その結果、特に大規模データセットを扱う場合、拡張SPLADEは有効性と効率の最良のバランスをとっています。
- 参考スコア(独自算出の注目度): 0.7912273514150788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a comprehensive comparison of BM25, SPLADE, and Expanded-SPLADE models in the context of large-scale web document retrieval. We evaluate the effectiveness and efficiency of these models on datasets spanning from tens of millions to billions of web document titles. SPLADE and Expanded-SPLADE, which utilize sparse lexical representations, demonstrate superior retrieval performance compared to BM25, especially for complex queries. However, these models incur higher computational costs. We introduce pruning strategies, including document-centric pruning and top-k query term selection, boolean query with term threshold to mitigate these costs and improve the models' efficiency without significantly sacrificing retrieval performance. The results show that Expanded-SPLADE strikes the best balance between effectiveness and efficiency, particularly when handling large datasets. Our findings offer valuable insights for deploying sparse retrieval models in large-scale search engines.
- Abstract(参考訳): 本稿では,大規模Webドキュメント検索におけるBM25,SPLADE,拡張SPLADEモデルの総合的な比較について述べる。
数千万から数十億のWebドキュメントタイトルにまたがるデータセット上で、これらのモデルの有効性と効率を評価する。
SPLADE と Expanded-SPLADE は、特に複雑なクエリにおいて、BM25 よりも検索性能が優れていることを示す。
しかし、これらのモデルは高い計算コストを発生させる。
我々は,文書中心のプルーニングやトップkクエリ項の選択,これらのコストを軽減し,検索性能を著しく損なうことなく,モデルの効率を向上するための時間しきい値付きブールクエリなど,プルーニング戦略を導入する。
その結果、特に大規模データセットを扱う場合、拡張SPLADEは有効性と効率の最良のバランスをとっています。
大規模な検索エンジンにスパース検索モデルを展開するための貴重な知見を提供する。
関連論文リスト
- Information Capacity: Evaluating the Efficiency of Large Language Models via Text Compression [53.39128997308138]
テキスト圧縮性能に基づくモデル効率の指標である情報容量を導入する。
主流のオープンソースモデルに対する実証的な評価は、シリーズ内のさまざまなサイズのモデルが一貫した情報容量を示すことを示している。
情報容量の特徴的な特徴は、入力と出力の両方のトークン数に影響を与えるトークン化効率が組み込まれていることである。
論文 参考訳(メタデータ) (2025-11-11T10:07:32Z) - Pseudo Relevance Feedback is Enough to Close the Gap Between Small and Large Dense Retrieval Models [29.934928091542375]
大規模言語モデル (LLM) のバックボーンに高密度レトリバーを拡張させることは, 検索効率を向上させる主要な戦略である。
本稿では,機能ベースの擬似関連フィードバック(PRF)フレームワークであるPromptPRFを紹介する。
論文 参考訳(メタデータ) (2025-03-19T04:30:20Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Exploiting Distribution Constraints for Scalable and Efficient Image Retrieval [1.6874375111244329]
最先端の画像検索システムは、データセットごとに特定のニューラルネットワークをトレーニングする。
オフザシェルフのファンデーションモデルは、データセット固有のモデルに匹敵するパフォーマンスを達成するには不足している。
本稿では,基本モデルの性能を著しく向上するAE-SVC(Strong Variance Constraints)を用いたオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-10-09T16:05:16Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。