論文の概要: Redefining Retrieval Evaluation in the Era of LLMs
- arxiv url: http://arxiv.org/abs/2510.21440v1
- Date: Fri, 24 Oct 2025 13:17:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.480176
- Title: Redefining Retrieval Evaluation in the Era of LLMs
- Title(参考訳): LLM時代の検索評価の再定義
- Authors: Giovanni Trappolini, Florin Cuconasu, Simone Filice, Yoelle Maarek, Fabrizio Silvestri,
- Abstract要約: 従来の情報検索(IR)メトリクスは、人間が下位階級への注意を減らした文書を逐次調査することを前提としている。
この仮定は、Large Language Models (LLM) によって検索結果が消費される検索拡張生成(RAG)システムにおいて破られる。
本稿では,関連するパスの肯定的な寄与と,注意をそらすパスのネガティブな影響の両方を定量化するユーティリティベースのアノテーションスキーマを提案する。
- 参考スコア(独自算出の注目度): 20.75884808285362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional Information Retrieval (IR) metrics, such as nDCG, MAP, and MRR, assume that human users sequentially examine documents with diminishing attention to lower ranks. This assumption breaks down in Retrieval Augmented Generation (RAG) systems, where search results are consumed by Large Language Models (LLMs), which, unlike humans, process all retrieved documents as a whole rather than sequentially. Additionally, traditional IR metrics do not account for related but irrelevant documents that actively degrade generation quality, rather than merely being ignored. Due to these two major misalignments, namely human vs. machine position discount and human relevance vs. machine utility, classical IR metrics do not accurately predict RAG performance. We introduce a utility-based annotation schema that quantifies both the positive contribution of relevant passages and the negative impact of distracting ones. Building on this foundation, we propose UDCG (Utility and Distraction-aware Cumulative Gain), a metric using an LLM-oriented positional discount to directly optimize the correlation with the end-to-end answer accuracy. Experiments on five datasets and six LLMs demonstrate that UDCG improves correlation by up to 36% compared to traditional metrics. Our work provides a critical step toward aligning IR evaluation with LLM consumers and enables more reliable assessment of RAG components
- Abstract(参考訳): nDCG、MAP、MRRのような伝統的な情報検索(IR)メトリクスは、人間のユーザーが下位階級への注意を減らした文書を順次調査すると仮定する。
この仮定は、検索結果がLarge Language Models (LLMs) によって消費されるレトリーバル拡張生成(RAG)システムで分解される。
さらに、従来のIRメトリクスは、単に無視されるのではなく、生成品質を積極的に劣化させる関連性のある、無関係な文書を考慮に入れていない。
これら2つの大きな相違、すなわち人間と機械の位置の割引と人間の関係性と機械の実用性との相違により、古典的なIRメトリクスはRAGのパフォーマンスを正確に予測することができない。
本稿では,関連するパスの肯定的な寄与と,注意をそらすパスのネガティブな影響の両方を定量化するユーティリティベースのアノテーションスキーマを提案する。
この基礎の上に構築されたUDCG(Utility and Distraction-aware Cumulative Gain)は,LLM指向の位置割引を用いて,エンドツーエンドの回答精度との相関を直接最適化する手法である。
5つのデータセットと6つのLCMの実験は、UDCGが従来のメトリクスと比較して最大36%の相関性を改善することを示した。
我々の研究は、IR評価をLCM消費者と整合させるための重要なステップを提供し、RAGコンポーネントをより信頼性の高い評価を可能にする。
関連論文リスト
- LLM Unlearning using Gradient Ratio-Based Influence Estimation and Noise Injection [0.0]
既存の経験的手法は、ローカライゼーションが不十分なため、不完全な忘れ物や意図しない無関係な知識の劣化をもたらすことが多い。
GRINは、忘れデータの記憶に最も寄与するパラメータを特定するための、勾配比に基づく新しい指標を導入した。
そして、微調整の前にこれらのパラメータに選択的ノイズ注入を行い、モデルユーティリティを維持しながら学習性能を向上させる。
論文 参考訳(メタデータ) (2025-08-08T17:15:32Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。
自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。
意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文 参考訳(メタデータ) (2024-11-13T01:12:35Z) - Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - Reliable Confidence Intervals for Information Retrieval Evaluation Using Generative A.I [39.92942310783174]
大規模言語モデル(LLM)は、相対的に計算コストの少ない大規模で関連アノテーションを生成することができる。
本稿では,予測型推論と共形リスク制御に基づく2つの手法を提案する。
実験の結果,CIは評価のばらつきと偏りの両方を正確に捉えていることがわかった。
論文 参考訳(メタデータ) (2024-07-02T17:44:00Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いた新しいクエリ性能予測(QPP)フレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
我々は,オープンソースの大規模言語モデル (LLM) を用いて,科学的妥当性を確保することにより,項目の関連性を予測する。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。