論文の概要: Latent Terms: Dense Retrievers Contain Trivially Extractable BM25-ready Zipfian Vocabularies
- arxiv url: http://arxiv.org/abs/2605.29384v1
- Date: Thu, 28 May 2026 05:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 00:00:30.944792
- Title: Latent Terms: Dense Retrievers Contain Trivially Extractable BM25-ready Zipfian Vocabularies
- Title(参考訳): 後期用語:Dense Retrieversには、選択的に抽出可能なBM25対応のZipfian語彙が含まれている
- Authors: Benjamin Clavié, Sean Lee, Aamir Shakir, Makoto P. Kato,
- Abstract要約: 本稿では,密集検索のために訓練されたモデルが,余分な特徴に分解され易い表現を学習する手法であるLatent Termsを提案する。
凍結したレトリバーでトレーニングを行うと、検索固有の調整を一切行わないスパースオートエンコーダは、約Zipfianコレクション統計を持つ潜在語彙を抽出する。
Latent Termsは、SPLADEに匹敵する変種と同様に、独自のベースモデルからシングルベクタースコアリング手法をマッチまたは上回ることができる。
- 参考スコア(独自算出の注目度): 1.938658977168075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Latent Terms, a method revealing that models trained for dense retrieval, whether single- or multi-vector, learn representations that can trivially be decomposed into retrieval-ready sparse features. When trained on frozen retrievers, Sparse Autoencoders without any retrieval-specific adjustments extract a latent vocabulary with approximately Zipfian collection statistics, directly suitable for classical sparse retrieval scoring via BM25. This approach enables sparse retrieval while requiring no learned expansion objective or sparse retrieval supervision whatsoever, and can be readily applied to any dense retriever. Latent Terms is able to match or outperform single-vector scoring methods from its own base model as well as comparable SPLADE variants. In addition, it substantially outperforms its base model on LIMIT, a task specifically designed to highlight the failures of single-vector retrieval. Overall, our results highlight that neural retrievers contain more expressive and indexable structure than their default scoring functions expose, but that other methods can nonetheless be leveraged.
- Abstract(参考訳): 本研究では,高密度検索のための学習モデルであるLatent Termsを提案する。
フリーズレトリバーでトレーニングを行うと、検索固有の調整のないスパースオートエンコーダは、約Zipfianコレクション統計を持つ潜時語彙を抽出し、BM25を介して古典的なスパース検索スコアに適合する。
このアプローチにより,学習対象やスパース検索の監督を一切必要とせず,スパース検索が可能となり,より密集した検索者にも容易に適用できる。
Latent Termsは、SPLADEに匹敵する変種と同様に、独自のベースモデルからシングルベクタースコアリング手法をマッチまたは上回ることができる。
さらに、単一ベクトル検索の失敗を強調するために特別に設計されたタスクであるLIMITにおいて、ベースモデルを大幅に上回っている。
全体としては、ニューラルレトリバーはデフォルトのスコアリング関数よりも表現力が高くインデックス可能な構造を持っているが、それでも他の手法は活用できる。
関連論文リスト
- Superintelligent Retrieval Agent: The Next Frontier of Information Retrieval [25.731213365755234]
textitSuperIntelligent Retrieval Agent (SIRA)を紹介する。
SIRAは、複数ラウンド探索探索を単一のコーパス識別検索アクションに圧縮することができる。
解釈可能で、トレーニング不要で、効率的でありながら、より高価なマルチラウンドサーチを超えることができる。
論文 参考訳(メタデータ) (2026-05-07T17:54:29Z) - Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction [127.64173950476702]
エージェントが直接、汎用端末ツールを用いて、生コーパスを直接検索する直接コーパス間相互作用(DCI)について検討する。
このアプローチではオフラインインデックスを必要とせず、ローカルコーパスの進化に自然に適応する。
IRベンチマークとエンドツーエンドのエージェント検索タスク全体にわたって、この単純なセットアップは、強いスパース、密度、リランクベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2026-05-03T19:13:11Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a
Sparse One? [15.618287626892174]
本稿では,スパースモデルの語彙マッチング能力を有する高密度検索器であるSPARについて紹介する。
特に高密度レトリバーLambdaはスパースレトリバーを模倣するように訓練でき、SPARは標準密度レトリバーをLambdaで強化することで構築されることを示す。
論文 参考訳(メタデータ) (2021-10-13T17:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。