論文の概要: Query Performance Prediction using Relevance Judgments Generated by Large Language Models
- arxiv url: http://arxiv.org/abs/2404.01012v1
- Date: Mon, 1 Apr 2024 09:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:56:51.573636
- Title: Query Performance Prediction using Relevance Judgments Generated by Large Language Models
- Title(参考訳): 大規模言語モデルによる関連判断を用いたクエリ性能予測
- Authors: Chuan Meng, Negar Arabzadeh, Arian Askari, Mohammad Aliannejadi, Maarten de Rijke,
- Abstract要約: 自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREはQPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに判断する。
TREC 2019-2022のディープラーニングトラックの実験では、QPP-GenREが語彙とニューラルランサーの両方で最先端のQPP精度を達成することが示されている。
- 参考スコア(独自算出の注目度): 53.97064615557883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Query performance prediction (QPP) aims to estimate the retrieval quality of a search system for a query without human relevance judgments. Previous QPP methods typically return a single scalar value and do not require the predicted values to approximate a specific information retrieval (IR) evaluation measure, leading to certain drawbacks: (i) a single scalar is insufficient to accurately represent different IR evaluation measures, especially when metrics do not highly correlate, and (ii) a single scalar limits the interpretability of QPP methods because solely using a scalar is insufficient to explain QPP results. To address these issues, we propose a QPP framework using automatically generated relevance judgments (QPP-GenRE), which decomposes QPP into independent subtasks of judging the relevance of each item in a ranked list to a given query. This allows us to predict any IR evaluation measure using the generated relevance judgments as pseudo-labels; Also, this allows us to interpret predicted IR evaluation measures, and identify, track and rectify errors in generated relevance judgments to improve QPP quality. We judge relevance by leveraging a leading open-source large language model (LLM), LLaMA, to ensure scientific reproducibility. In doing so, we address two main challenges: (i) excessive computational costs of judging the entire corpus for predicting a recall-based metric, and (ii) poor performance in prompting LLaMA in a zero-/few-shot manner. We devise an approximation strategy to predict a recall-oriented IR measure and propose to fine-tune LLaMA using human-labeled relevance judgments. Experiments on the TREC 2019-2022 deep learning tracks show that QPP-GenRE achieves state-of-the-art QPP accuracy for both lexical and neural rankers in both precision- and recall-oriented metrics.
- Abstract(参考訳): クエリ性能予測(QPP)は,クエリの検索システムの検索品質を人間関係判定なしで推定することを目的としている。
従来のQPPメソッドは通常、単一のスカラー値を返すが、特定の情報検索(IR)評価尺度を近似するために予測値を必要としない。
一 一つのスカラーで異なるIR評価尺度を正確に表すには不十分で、特にメトリクスが高度に相関しない場合
(II) 単一スカラーは、単にスカラーを用いることだけでQPP結果を説明することができないため、QPP法の解釈可能性を制限する。
これらの問題に対処するために,QPPを個別のサブタスクに分解し,ランクリスト内の各項目の関連を所定のクエリに分解するQPPフレームワークを提案する。
これにより、生成した関連判断を擬似ラベルとして利用してIR評価尺度を予測することができ、また、予測されたIR評価尺度を解釈し、生成した関連判断におけるエラーを特定し、追跡し、修正し、QPP品質を向上させることができる。
我々は,LLaMA (LLM) というオープンソースの大規模言語モデルを利用して,科学的再現性を確保することにより,その妥当性を判断する。
そうすることで、私たちは2つの大きな課題に取り組みます。
一 コールベースの計量を予測するための全コーパスを判定する過度な計算コスト
(II)LLaMAをゼロ/フェーショットで誘導する性能が劣る。
我々は、リコール指向のIR尺度を予測する近似戦略を考案し、人間ラベルの関連性判定を用いた微調整LLaMAを提案する。
TREC 2019-2022のディープラーニングトラックの実験によると、QPP-GenREは、精度とリコール指向のメトリクスの両方において、語彙とニューラルランサーの両方に対して最先端のQPP精度を達成する。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Perceptual adjustment queries and an inverted measurement paradigm for
low-rank metric learning [22.7492766005919]
我々は、知覚調整クエリ(PAQ)と呼ばれる、人間のフィードバックを収集する新しいタイプのクエリメカニズムを導入する。
情報的にも認知的にも軽量であるため、PAQは逆測定方式を採用し、基数クエリと順序クエリの両方の利点を組み合わせている。
本研究では,PAQからのメトリック学習のための2段階推定器を開発し,この推定器の複雑さの保証を行う。
論文 参考訳(メタデータ) (2023-09-08T22:36:33Z) - Query Performance Prediction: From Ad-hoc to Conversational Search [55.37199498369387]
クエリパフォーマンス予測(QPP)は、情報検索における中核的なタスクである。
アドホック検索におけるQPPの有効性と有用性について検討した。
その可能性にもかかわらず、会話検索のためのQPPはほとんど研究されていない。
論文 参考訳(メタデータ) (2023-05-18T12:37:01Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question
Answering Evaluation [11.733609600774306]
質問応答システムは通常、1つ以上の回答の注釈付き有限集合に対して評価される。
これは、システムの真のパフォーマンスを過小評価する、カバレッジの制限につながる。
本稿では,トークンレベルの等価度尺度の欠点を検討するための,最初の体系的概念的およびデータ駆動分析について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。