論文の概要: How important is Recall for Measuring Retrieval Quality?
- arxiv url: http://arxiv.org/abs/2512.20854v1
- Date: Wed, 24 Dec 2025 00:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.63767
- Title: How important is Recall for Measuring Retrieval Quality?
- Title(参考訳): 検索品質測定のリコールはどの程度重要か?
- Authors: Shelly Schwartz, Oleg Vasilyev, Randy Sawaya,
- Abstract要約: 知識ベースが大きく進化した現実的な検索設定では、クエリに関連するドキュメントの総数は一般的に不明であり、リコールは計算できない。
我々は,検索品質指標とLCMに基づく応答品質判断の相関を計測することにより,この制限に対処するためのいくつかの確立された戦略を評価する。
本稿では,関連文書の総数を知ることなく,検索品質の簡易化を図る方法を提案する。
- 参考スコア(独自算出の注目度): 5.226473120875281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In realistic retrieval settings with large and evolving knowledge bases, the total number of documents relevant to a query is typically unknown, and recall cannot be computed. In this paper, we evaluate several established strategies for handling this limitation by measuring the correlation between retrieval quality metrics and LLM-based judgments of response quality, where responses are generated from the retrieved documents. We conduct experiments across multiple datasets with a relatively low number of relevant documents (2-15). We also introduce a simple retrieval quality measure that performs well without requiring knowledge of the total number of relevant documents.
- Abstract(参考訳): 知識ベースが大きく進化した現実的な検索設定では、クエリに関連するドキュメントの総数は一般的に不明であり、リコールは計算できない。
本稿では、検索品質指標とLLMに基づく応答品質判断の相関を計測し、検索した文書から応答を生成することにより、この制限に対処するためのいくつかの確立された戦略を評価する。
比較的少ない関連文書(2~15)で複数のデータセットにまたがって実験を行う。
また,関連文書の総数を知る必要がなく,検索品質の簡易な指標も導入した。
関連論文リスト
- Contextual Relevance and Adaptive Sampling for LLM-Based Document Reranking [16.036042734987024]
文書が与えられたクエリに関連する確率として定義する文脈関連性を提案する。
文脈関連性を効率的に推定するために,サンプリングに基づく不確実性を考慮した再ランクアルゴリズムTS-SetRankを提案する。
実験的に、TS-SetRankは検索よりもnDCG@10を改善し、BRIGHTでは15-25%、BEIRでは6-21%のベースラインをリランクする。
論文 参考訳(メタデータ) (2025-11-03T04:03:32Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Chain of Retrieval: Multi-Aspect Iterative Search Expansion and Post-Order Search Aggregation for Full Paper Retrieval [68.71038700559195]
The Chain of Retrieval (COR) is a novel repeaterative framework for full-paper search。
SCIBENCH(SCIBENCH)は、クエリと候補のための全論文の完全なコンテキストとセグメント化されたコンテキストを提供するベンチマークである。
論文 参考訳(メタデータ) (2025-07-14T08:41:53Z) - GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems [0.33748750222488655]
GenTRECは、Large Language Model (LLM)によって生成された文書から完全に構築された最初のテストコレクションである。
我々は、生成したプロンプトのみに関連する文書を考察する一方、他の文書とトピックのペアは非関連として扱われる。
結果として得られたGenTRECコレクションは96,196のドキュメント、300のトピック、および18,964の関連性"判断"で構成されている。
論文 参考訳(メタデータ) (2025-01-05T00:27:36Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。