論文の概要: Query Performance Prediction using Relevance Judgments Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2404.01012v1
- Date: Mon, 1 Apr 2024 09:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:56:51.573636
- Title: Query Performance Prediction using Relevance Judgments Generated by Large Language Models
- Title(参考訳): 大規模言語モデルによる関連判断を用いたクエリ性能予測
- Authors: Chuan Meng, Negar Arabzadeh, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke,
- Abstract要約: 自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREはQPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに判断する。
TREC 2019-2022のディープラーニングトラックの実験では、QPP-GenREが語彙とニューラルランサーの両方で最先端のQPP精度を達成することが示されている。
- 参考スコア(独自算出の注目度): 53.97064615557883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query performance prediction (QPP) aims to estimate the retrieval quality of a search system for a query without human relevance judgments. Previous QPP methods typically return a single scalar value and do not require the predicted values to approximate a specific information retrieval (IR) evaluation measure, leading to certain drawbacks: (i) a single scalar is insufficient to accurately represent different IR evaluation measures, especially when metrics do not highly correlate, and (ii) a single scalar limits the interpretability of QPP methods because solely using a scalar is insufficient to explain QPP results. To address these issues, we propose a QPP framework using automatically generated relevance judgments (QPP-GenRE), which decomposes QPP into independent subtasks of judging the relevance of each item in a ranked list to a given query. This allows us to predict any IR evaluation measure using the generated relevance judgments as pseudo-labels; Also, this allows us to interpret predicted IR evaluation measures, and identify, track and rectify errors in generated relevance judgments to improve QPP quality. We judge relevance by leveraging a leading open-source large language model (LLM), LLaMA, to ensure scientific reproducibility. In doing so, we address two main challenges: (i) excessive computational costs of judging the entire corpus for predicting a recall-based metric, and (ii) poor performance in prompting LLaMA in a zero-/few-shot manner. We devise an approximation strategy to predict a recall-oriented IR measure and propose to fine-tune LLaMA using human-labeled relevance judgments. Experiments on the TREC 2019-2022 deep learning tracks show that QPP-GenRE achieves state-of-the-art QPP accuracy for both lexical and neural rankers in both precision- and recall-oriented metrics.
- Abstract(参考訳): クエリ性能予測(QPP)は,クエリの検索システムの検索品質を人間関係判定なしで推定することを目的としている。
従来のQPPメソッドは通常、単一のスカラー値を返すが、特定の情報検索(IR)評価尺度を近似するために予測値を必要としない。
一 一つのスカラーで異なるIR評価尺度を正確に表すには不十分で、特にメトリクスが高度に相関しない場合
(II) 単一スカラーは、単にスカラーを用いることだけでQPP結果を説明することができないため、QPP法の解釈可能性を制限する。
これらの問題に対処するために,QPPを個別のサブタスクに分解し,ランクリスト内の各項目の関連を所定のクエリに分解するQPPフレームワークを提案する。
これにより、生成した関連判断を擬似ラベルとして利用してIR評価尺度を予測することができ、また、予測されたIR評価尺度を解釈し、生成した関連判断におけるエラーを特定し、追跡し、修正し、QPP品質を向上させることができる。
我々は,LLaMA (LLM) というオープンソースの大規模言語モデルを利用して,科学的再現性を確保することにより,その妥当性を判断する。
そうすることで、私たちは2つの大きな課題に取り組みます。
一 コールベースの計量を予測するための全コーパスを判定する過度な計算コスト
(II)LLaMAをゼロ/フェーショットで誘導する性能が劣る。
我々は、リコール指向のIR尺度を予測する近似戦略を考案し、人間ラベルの関連性判定を用いた微調整LLaMAを提案する。
TREC 2019-2022のディープラーニングトラックの実験によると、QPP-GenREは、精度とリコール指向のメトリクスの両方において、語彙とニューラルランサーの両方に対して最先端のQPP精度を達成する。
関連論文リスト
- Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Query Performance Prediction: From Ad-hoc to Conversational Search [55.37199498369387]
クエリパフォーマンス予測(QPP)は、情報検索における中核的なタスクである。
アドホック検索におけるQPPの有効性と有用性について検討した。
その可能性にもかかわらず、会話検索のためのQPPはほとんど研究されていない。
論文 参考訳(メタデータ) (2023-05-18T12:37:01Z) - iQPP: A Benchmark for Image Query Performance Prediction [24.573869540845124]
画像クエリ性能予測(iQPP)のための最初のベンチマークを提案する。
2つの最先端画像検索モデルを用いて,各問合せの根本的難易度を平均精度または精度@kとして推定する。
次に,新しい検索前および検索後クエリ性能予測器を提案し,既存の(テキストから画像まで)予測器と比較した。
我々の総合的な実験は、iQPPは挑戦的なベンチマークであり、将来の作業で対処する必要がある重要な研究ギャップを明らかにしていることを示している。
論文 参考訳(メタデータ) (2023-02-20T17:56:57Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。