論文の概要: Query Performance Prediction using Relevance Judgments Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2404.01012v2
- Date: Mon, 17 Jun 2024 11:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:07:34.983267
- Title: Query Performance Prediction using Relevance Judgments Generated by Large Language Models
- Title(参考訳): 大規模言語モデルによる関連判断を用いたクエリ性能予測
- Authors: Chuan Meng, Negar Arabzadeh, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke,
- Abstract要約: 自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
- 参考スコア(独自算出の注目度): 53.97064615557883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query performance prediction (QPP) aims to estimate the retrieval quality of a search system for a query without human relevance judgments. Previous QPP methods typically return a single scalar value and do not require the predicted values to approximate a specific information retrieval (IR) evaluation measure, leading to certain drawbacks: (i) a single scalar is insufficient to accurately represent different IR evaluation measures, especially when metrics do not highly correlate, and (ii) a single scalar limits the interpretability of QPP methods because solely using a scalar is insufficient to explain QPP results. To address these issues, we propose a QPP framework using automatically generated relevance judgments (QPP-GenRE), which decomposes QPP into independent subtasks of predicting the relevance of each item in a ranked list to a given query. This allows us to predict any IR evaluation measure using the generated relevance judgments as pseudo-labels. This also allows us to interpret predicted IR evaluation measures, and identify, track and rectify errors in generated relevance judgments to improve QPP quality. We predict an item's relevance by using open-source large language models (LLMs) to ensure scientific reproducibility. We face two main challenges: (i) excessive computational costs of judging an entire corpus for predicting a metric considering recall, and (ii) limited performance in prompting open-source LLMs in a zero-/few-shot manner. To solve the challenges, we devise an approximation strategy to predict an IR measure considering recall and propose to fine-tune open-source LLMs using human-labeled relevance judgments. Experiments on the TREC 2019-2022 deep learning tracks show that QPP-GenRE achieves state-of-the-art QPP quality for both lexical and neural rankers.
- Abstract(参考訳): クエリ性能予測(QPP)は,クエリの検索システムの検索品質を人間関係判断なしで推定することを目的としている。
従来のQPPメソッドは通常、単一のスカラー値を返すが、特定の情報検索(IR)評価尺度を近似するために予測値を必要としない。
一 一つのスカラーで異なる赤外線評価尺度を正確に表すには不十分で、特にメトリクスが高度に相関しない場合
(II) 単一スカラーは、単にスカラーを用いることだけでQPP結果を説明することができないため、QPP法の解釈可能性を制限する。
これらの問題に対処するために,QPPを個別のサブタスクに分解し,ランクリスト内の各項目の関連性を所定のクエリに予測するQPPフレームワーク(QPP-GenRE)を提案する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
これにより、予測されたIR評価尺度を解釈し、生成された関連判断における誤りを特定し、追跡し、修正し、QPP品質を向上させることができる。
我々は,オープンソースの大規模言語モデル(LLM)を用いて,科学的再現性を確保することにより,項目の関連性を予測する。
主な課題は2つあります。
一 リコールを考慮したメートル法予測のための全コーパスを判定する過大な計算コスト
(II) オープンソース LLM をゼロ/フェーショット方式でプロンプトする際の限られた性能。
課題を解決するため、リコールを考慮したIR測度予測のための近似戦略を考案し、人間ラベルの関連判断を用いたオープンソースのLCMの微調整を提案する。
TREC 2019-2022のディープラーニングトラックでの実験によると、QPP-GenREは、語彙とニューラルランサーの両方で最先端のQPP品質を達成する。
関連論文リスト
- Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Query Performance Prediction: From Ad-hoc to Conversational Search [55.37199498369387]
クエリパフォーマンス予測(QPP)は、情報検索における中核的なタスクである。
アドホック検索におけるQPPの有効性と有用性について検討した。
その可能性にもかかわらず、会話検索のためのQPPはほとんど研究されていない。
論文 参考訳(メタデータ) (2023-05-18T12:37:01Z) - iQPP: A Benchmark for Image Query Performance Prediction [24.573869540845124]
画像クエリ性能予測(iQPP)のための最初のベンチマークを提案する。
2つの最先端画像検索モデルを用いて,各問合せの根本的難易度を平均精度または精度@kとして推定する。
次に,新しい検索前および検索後クエリ性能予測器を提案し,既存の(テキストから画像まで)予測器と比較した。
我々の総合的な実験は、iQPPは挑戦的なベンチマークであり、将来の作業で対処する必要がある重要な研究ギャップを明らかにしていることを示している。
論文 参考訳(メタデータ) (2023-02-20T17:56:57Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。