論文の概要: Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets
- arxiv url: http://arxiv.org/abs/2504.09353v1
- Date: Sat, 12 Apr 2025 22:05:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:48:34.462339
- Title: Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets
- Title(参考訳): 望遠鏡のレンズを破る:大規模検索セットのオンライン関連性評価
- Authors: Mandeep Rathee, Venktesh V, Sean MacAvaney, Avishek Anand,
- Abstract要約: 本稿では,オンライン関連度推定という新たな手法を提案する。
オンライン関連度推定は、ランキングプロセスを通して、クエリの関連度推定を継続的に更新する。
TRECベンチマークの手法をハイブリッド検索と適応検索の2つのシナリオで検証する。
- 参考スコア(独自算出の注目度): 15.549852480638066
- License:
- Abstract: Advanced relevance models, such as those that use large language models (LLMs), provide highly accurate relevance estimations. However, their computational costs make them infeasible for processing large document corpora. To address this, retrieval systems often employ a telescoping approach, where computationally efficient but less precise lexical and semantic retrievers filter potential candidates for further ranking. However, this approach heavily depends on the quality of early-stage retrieval, which can potentially exclude relevant documents early in the process. In this work, we propose a novel paradigm for re-ranking called online relevance estimation that continuously updates relevance estimates for a query throughout the ranking process. Instead of re-ranking a fixed set of top-k documents in a single step, online relevance estimation iteratively re-scores smaller subsets of the most promising documents while adjusting relevance scores for the remaining pool based on the estimations from the final model using an online bandit-based algorithm. This dynamic process mitigates the recall limitations of telescoping systems by re-prioritizing documents initially deemed less relevant by earlier stages -- including those completely excluded by earlier-stage retrievers. We validate our approach on TREC benchmarks under two scenarios: hybrid retrieval and adaptive retrieval. Experimental results demonstrate that our method is sample-efficient and significantly improves recall, highlighting the effectiveness of our online relevance estimation framework for modern search systems.
- Abstract(参考訳): 大規模言語モデル(LLM)を使用するような高度な関連モデルは、高精度な関連性推定を提供する。
しかし、その計算コストは大きな文書コーパスを処理できない。
これを解決するために、検索システムはテレスコープ方式を用いることが多い。
しかし,本手法は早期検索の品質に大きく依存する。
そこで本研究では,オンライン関連度推定と呼ばれる新たな手法を提案し,ランキングプロセスを通じてクエリの関連度推定を継続的に更新する。
1つのステップでトップkドキュメントの固定セットを再ランクする代わりに、オンライン関連推定は最も有望なドキュメントの小さなサブセットを反復的に再スコアし、オンラインバンディットベースのアルゴリズムを用いて最終モデルからの評価に基づいて、残りのプールの関連スコアを調整する。
この動的なプロセスは、初期の段階では関連性が低いと考えられていた文書を再優先順位付けすることで、テレスコープシステムのリコール制限を緩和する。
TRECベンチマークの手法をハイブリッド検索と適応検索の2つのシナリオで検証する。
実験の結果,本手法はサンプル効率が高く,リコールを著しく改善し,現代の検索システムにおけるオンライン関連度推定フレームワークの有効性を浮き彫りにした。
関連論文リスト
- Gumbel Reranking: Differentiable End-to-End Reranker Optimization [61.16471123356738]
RAGシステムは関連する文書を識別するためにリランカーに依存している。
注釈付きクエリ-ドキュメントペアが不足しているため、これらのモデルの微調整は依然として難しい。
我々は,トレーニングと推論のギャップを最小限に抑えることを目的とした,リランカーのためのエンドツーエンドのトレーニングフレームワークであるGumbel Re rankを提案する。
論文 参考訳(メタデータ) (2025-02-16T13:23:39Z) - ECLIPSE: Contrastive Dimension Importance Estimation with Pseudo-Irrelevance Feedback for Dense Retrieval [14.72046677914345]
近年のInformation Retrievalは、高次元埋め込み空間を活用して、関連文書の検索を改善している。
これらの高次元表現にもかかわらず、クエリに関連する文書は、低次元のクエリ依存多様体に存在する。
本稿では,関連文書と非関連文書の両方からの情報を活用することによって,これらの制約に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T15:45:06Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - Dense Retrieval with Continuous Explicit Feedback for Systematic Review Screening Prioritisation [28.80089773616623]
体系的なレビューにおいて優先順位付けをスクリーニングする目的は、関連文書を高いリコールで識別し、レビューの早い段階でランク付けすることである。
近年の研究では、ニューラルモデルがこのタスクに有意なポテンシャルがあることが示されているが、それらの時間を要する微調整と推論は、優先順位付けのスクリーニングに広く使用されることを妨げている。
ニューラルモデルに引き続き依存する代替アプローチを提案するが、高密度表現と関連フィードバックを活用してスクリーニングの優先順位付けを強化する。
論文 参考訳(メタデータ) (2024-06-30T09:25:42Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。