論文の概要: Contextual Relevance and Adaptive Sampling for LLM-Based Document Reranking
- arxiv url: http://arxiv.org/abs/2511.01208v1
- Date: Mon, 03 Nov 2025 04:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.113425
- Title: Contextual Relevance and Adaptive Sampling for LLM-Based Document Reranking
- Title(参考訳): LLM文書の文脈関連性と適応サンプリング
- Authors: Jerry Huang, Siddarth Madala, Cheng Niu, Julia Hockenmaier, Tong Zhang,
- Abstract要約: 文書が与えられたクエリに関連する確率として定義する文脈関連性を提案する。
文脈関連性を効率的に推定するために,サンプリングに基づく不確実性を考慮した再ランクアルゴリズムTS-SetRankを提案する。
実験的に、TS-SetRankは検索よりもnDCG@10を改善し、BRIGHTでは15-25%、BEIRでは6-21%のベースラインをリランクする。
- 参考スコア(独自算出の注目度): 16.036042734987024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reranking algorithms have made progress in improving document retrieval quality by efficiently aggregating relevance judgments generated by large language models (LLMs). However, identifying relevant documents for queries that require in-depth reasoning remains a major challenge. Reasoning-intensive queries often exhibit multifaceted information needs and nuanced interpretations, rendering document relevance inherently context dependent. To address this, we propose contextual relevance, which we define as the probability that a document is relevant to a given query, marginalized over the distribution of different reranking contexts it may appear in (i.e., the set of candidate documents it is ranked alongside and the order in which the documents are presented to a reranking model). While prior works have studied methods to mitigate the positional bias LLMs exhibit by accounting for the ordering of documents, we empirically find that the compositions of these batches also plays an important role in reranking performance. To efficiently estimate contextual relevance, we propose TS-SetRank, a sampling-based, uncertainty-aware reranking algorithm. Empirically, TS-SetRank improves nDCG@10 over retrieval and reranking baselines by 15-25% on BRIGHT and 6-21% on BEIR, highlighting the importance of modeling relevance as context-dependent.
- Abstract(参考訳): 大規模言語モデル(LLM)が生成する関連判断を効率的に集約することにより,文書検索の質を向上させるアルゴリズムが進歩している。
しかし、詳細な推論を必要とするクエリの関連ドキュメントを特定することは大きな課題である。
推論集約クエリは、しばしば多面的な情報要求とニュアンス化された解釈を示し、文書の関連性は本質的にコンテキストに依存している。
そこで本稿では,文書が与えられたクエリに関連する確率として定義するコンテキスト関連性を提案し,それらが出現する可能性のある異なるリグレードコンテキストの分布に対して疎外化を行う(すなわち,それと並行してランク付けされる候補文書の集合と,文書がリグレードモデルに提示される順序)。
先行研究では,文書の順序を考慮し,位置バイアスのLCMを緩和する手法が研究されているが,これらのバッチの構成が性能の再評価において重要な役割を担っていることを実証的に見出した。
文脈関連性を効率的に推定するために,サンプリングに基づく不確実性を考慮した再ランクアルゴリズムTS-SetRankを提案する。
実験的に、TS-SetRankは検索よりもnDCG@10を改善し、BRIGHTでは15-25%、BEIRでは6-21%の基準ラインをリランクする。
関連論文リスト
- Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - CoRank: LLM-Based Compact Reranking with Document Features for Scientific Retrieval [30.341167520613197]
第一段階の検索はしばしば科学的領域において最適でないため、関連する文書は下位にランクされる。
我々は、科学検索のためのトレーニング不要でモデルに依存しないフレームワークであるCoRankを提案する。
論文 参考訳(メタデータ) (2025-05-19T22:10:27Z) - Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets [14.494301139974455]
本稿では,オンライン関連度推定という新たな手法を提案する。
オンライン関連度推定は、ランキングプロセスを通して、クエリの関連度推定を継続的に更新する。
TRECベンチマークの手法をハイブリッド検索と適応検索の2つのシナリオで検証する。
論文 参考訳(メタデータ) (2025-04-12T22:05:50Z) - Is Relevance Propagated from Retriever to Generator in RAG? [21.82171240511567]
RAGは外部知識を組み込むためのフレームワークであり、通常はコレクションから取得した文書の集合の形式である。
我々は、トポロジに関連のある文書からなるRAGコンテキストが下流の性能向上につながるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2025-02-20T20:21:46Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。