Fugu-MT 論文翻訳(概要): Query Performance Prediction using Relevance Judgments Generated by Large Language Models

論文の概要: Query Performance Prediction using Relevance Judgments Generated by Large Language Models

arxiv url: http://arxiv.org/abs/2404.01012v2
Date: Mon, 17 Jun 2024 11:23:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 05:07:34.983267
Title: Query Performance Prediction using Relevance Judgments Generated by Large Language Models
Title（参考訳）: 大規模言語モデルによる関連判断を用いたクエリ性能予測
Authors: Chuan Meng, Negar Arabzadeh, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke,
Abstract要約: 自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。 QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
参考スコア（独自算出の注目度）: 53.97064615557883
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Query performance prediction (QPP) aims to estimate the retrieval quality of a search system for a query without human relevance judgments. Previous QPP methods typically return a single scalar value and do not require the predicted values to approximate a specific information retrieval (IR) evaluation measure, leading to certain drawbacks: (i) a single scalar is insufficient to accurately represent different IR evaluation measures, especially when metrics do not highly correlate, and (ii) a single scalar limits the interpretability of QPP methods because solely using a scalar is insufficient to explain QPP results. To address these issues, we propose a QPP framework using automatically generated relevance judgments (QPP-GenRE), which decomposes QPP into independent subtasks of predicting the relevance of each item in a ranked list to a given query. This allows us to predict any IR evaluation measure using the generated relevance judgments as pseudo-labels. This also allows us to interpret predicted IR evaluation measures, and identify, track and rectify errors in generated relevance judgments to improve QPP quality. We predict an item's relevance by using open-source large language models (LLMs) to ensure scientific reproducibility. We face two main challenges: (i) excessive computational costs of judging an entire corpus for predicting a metric considering recall, and (ii) limited performance in prompting open-source LLMs in a zero-/few-shot manner. To solve the challenges, we devise an approximation strategy to predict an IR measure considering recall and propose to fine-tune open-source LLMs using human-labeled relevance judgments. Experiments on the TREC 2019-2022 deep learning tracks show that QPP-GenRE achieves state-of-the-art QPP quality for both lexical and neural rankers.
Abstract（参考訳）: クエリ性能予測(QPP)は,クエリの検索システムの検索品質を人間関係判断なしで推定することを目的としている。従来のQPPメソッドは通常、単一のスカラー値を返すが、特定の情報検索(IR)評価尺度を近似するために予測値を必要としない。一一つのスカラーで異なる赤外線評価尺度を正確に表すには不十分で、特にメトリクスが高度に相関しない場合 (II) 単一スカラーは、単にスカラーを用いることだけでQPP結果を説明することができないため、QPP法の解釈可能性を制限する。これらの問題に対処するために,QPPを個別のサブタスクに分解し,ランクリスト内の各項目の関連性を所定のクエリに予測するQPPフレームワーク(QPP-GenRE)を提案する。これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。これにより、予測されたIR評価尺度を解釈し、生成された関連判断における誤りを特定し、追跡し、修正し、QPP品質を向上させることができる。我々は,オープンソースの大規模言語モデル(LLM)を用いて,科学的再現性を確保することにより,項目の関連性を予測する。主な課題は2つあります。一リコールを考慮したメートル法予測のための全コーパスを判定する過大な計算コスト (II) オープンソース LLM をゼロ/フェーショット方式でプロンプトする際の限られた性能。課題を解決するため、リコールを考慮したIR測度予測のための近似戦略を考案し、人間ラベルの関連判断を用いたオープンソースのLCMの微調整を提案する。 TREC 2019-2022のディープラーニングトラックでの実験によると、QPP-GenREは、語彙とニューラルランサーの両方で最先端のQPP品質を達成する。

関連論文リスト

PRECISE: Reducing the Bias of LLM Evaluations Using Prediction-Powered Ranking Estimation [3.867363075280545]
予測パワー推論(PPI)は、最小限の人間のアノテーションとLLM(Large Language Models)を組み合わせることで、メトリクスの信頼性の高い推定値を生成する。提案手法では,100件の人間アノテーションクエリと1万件の未ラベル例が必要であり,アノテーションの要求を大幅に低減する。
論文参考訳（メタデータ） (2026-01-26T18:46:49Z)
Beyond Correlations: A Downstream Evaluation Framework for Query Performance Prediction [10.378957672522157]
クエリ性能予測(QPP)評価の標準的な実践は、推定された検索品質と真の結果とのセットレベル相関を測定することである。本稿では、複数のランク付けで検索した上位文書の一覧からQPP推定値の分布をIR融合の先行値として用いる下流焦点評価フレームワークを提案する。一方、これらの推定値の分布は、真の検索特性と密に一致し、予測器の品質を示す一方で、先行値としての使用は、予測器がIRパイプラインで情報的選択を行う能力を示す。
論文参考訳（メタデータ） (2026-01-24T06:58:30Z)
Predicting Retrieval Utility and Answer Quality in Retrieval-Augmented Generation [24.439170886636788]
RAGの改善の鍵となる課題は、検索した文書の有用性と最終回答の品質の両方を、正確性と妥当性の観点から予測することである。 RAG内では,検索性能予測と生成性能予測という2つの予測タスクを定義している。入力クエリに条件付けされた検索コンテキストのLLMの難易度など、読者中心の機能は、予測精度をさらに高めることができると論じる。
論文参考訳（メタデータ） (2026-01-20T23:59:54Z)
Conformal Information Pursuit for Interactively Guiding Large Language Models [64.39770942422288]
本稿では,クエリ数の最小化を目的としたシーケンシャルクエリ戦略について検討する。そのような戦略の1つは情報探索(IP)であり、各反復で情報ゲインを最大化または同等に不確実性を最小化するクエリを選択する。本稿では,コンフォーマル情報探索法(C-IP)を提案する。
論文参考訳（メタデータ） (2025-07-04T03:55:39Z)
Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文参考訳（メタデータ） (2025-06-05T18:26:14Z)
Uncovering the Limitations of Query Performance Prediction: Failures, Insights, and Implications for Selective Query Processing [3.463527836552468]
本稿では,最先端QPP(NQC,UQC)の総合評価を行う。我々は、多様なスパースローダ(BM25、DFree、クエリ拡張なし)とハイブリッドまたは高密度(SPLADE、ColBert)と多様なテストコレクションROBUST、GOV2、WT10G、MS MARCOを使用します。結果は予測器の精度に有意なばらつきを示し, コレクションを主要因とし, 次にランク付けを行う。
論文参考訳（メタデータ） (2025-04-01T18:18:21Z)
PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。これは、安全なデプロイメントを保証する上で、大きな課題となる。 PredictaBoardは,新しいベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-02-20T10:52:38Z)
Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文参考訳（メタデータ） (2024-11-04T18:49:46Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文参考訳（メタデータ） (2024-04-04T11:32:03Z)
Query Performance Prediction: From Ad-hoc to Conversational Search [55.37199498369387]
クエリパフォーマンス予測(QPP)は、情報検索における中核的なタスクである。アドホック検索におけるQPPの有効性と有用性について検討した。その可能性にもかかわらず、会話検索のためのQPPはほとんど研究されていない。
論文参考訳（メタデータ） (2023-05-18T12:37:01Z)
iQPP: A Benchmark for Image Query Performance Prediction [24.573869540845124]
画像クエリ性能予測(iQPP)のための最初のベンチマークを提案する。 2つの最先端画像検索モデルを用いて,各問合せの根本的難易度を平均精度または精度@kとして推定する。次に,新しい検索前および検索後クエリ性能予測器を提案し,既存の(テキストから画像まで)予測器と比較した。我々の総合的な実験は、iQPPは挑戦的なベンチマークであり、将来の作業で対処する必要がある重要な研究ギャップを明らかにしていることを示している。
論文参考訳（メタデータ） (2023-02-20T17:56:57Z)
Uncertainty Quantification with Pre-trained Language Models: A Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。 1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文参考訳（メタデータ） (2022-10-10T14:16:01Z)
Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠であるほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文参考訳（メタデータ） (2022-07-27T07:50:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。