論文の概要: Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- arxiv url: http://arxiv.org/abs/2306.17563v2
- Date: Thu, 28 Mar 2024 13:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 22:02:51.244358
- Title: Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
- Title(参考訳): 大きな言語モデルとペアワイズ・ランクング・プロンプティングによる効果的なテキスト・ランク付け
- Authors: Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Le Yan, Jiaming Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, Michael Bendersky,
- Abstract要約: Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
- 参考スコア(独自算出の注目度): 65.00288634420812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ranking documents using Large Language Models (LLMs) by directly feeding the query and candidate documents into the prompt is an interesting and practical problem. However, researchers have found it difficult to outperform fine-tuned baseline rankers on benchmark datasets. We analyze pointwise and listwise ranking prompts used by existing methods and argue that off-the-shelf LLMs do not fully understand these challenging ranking formulations. In this paper, we propose to significantly reduce the burden on LLMs by using a new technique called Pairwise Ranking Prompting (PRP). Our results are the first in the literature to achieve state-of-the-art ranking performance on standard benchmarks using moderate-sized open-sourced LLMs. On TREC-DL 2019&2020, PRP based on the Flan-UL2 model with 20B parameters performs favorably with the previous best approach in the literature, which is based on the blackbox commercial GPT-4 that has 50x (estimated) model size, while outperforming other LLM-based solutions, such as InstructGPT which has 175B parameters, by over 10% for all ranking metrics. By using the same prompt template on seven BEIR tasks, PRP outperforms supervised baselines and outperforms the blackbox commercial ChatGPT solution by 4.2% and pointwise LLM-based solutions by more than 10% on average NDCG@10. Furthermore, we propose several variants of PRP to improve efficiency and show that it is possible to achieve competitive results even with linear complexity.
- Abstract(参考訳): クエリと候補文書を直接プロンプトに入力することで、LLM(Large Language Models)を使用して文書をランク付けすることは、興味深い、実用的な問題である。
しかし、研究者らは、ベンチマークデータセット上で微調整されたベースラインランクを上回ることは難しいと結論付けている。
既存の手法で用いられるポイントワイドおよびリストワイドランキングのプロンプトを分析し,既成のLCMがこれらの難解なランキングの定式化を十分に理解していないことを論じる。
本稿では,Pairwise Ranking Prompting (PRP) と呼ばれる新しい手法を用いて,LLMの負担を軽減することを提案する。
本研究は,中等級のオープンソースLCMを用いて,標準ベンチマークにおける最先端のランク付け性能を達成した文献としては,今回が初めてである。
TREC-DL 2019&2020において、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、50倍(推定)モデルサイズを持つブラックボックス商用GPT-4をベースとした文献において、これまでのベストアプローチと好意的に機能する一方で、175Bパラメータを持つインストラクトGPTなど、他のLCMベースのソリューションよりも10%以上パフォーマンスが高い。
7つのBEIRタスクで同じプロンプトテンプレートを使用することで、PRPは教師付きベースラインを上回り、ブラックボックスの商用ChatGPTソリューションを4.2%上回り、ポイントワイドのLCMベースのソリューションを平均NDCG@10で10%以上上回ります。
さらに, PRPのいくつかの変種を提案し, 線形複雑度を伴っても競合する結果が得られることを示した。
関連論文リスト
- Metric-aware LLM inference for regression and scoring [52.764328080398805]
大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。
我々は,この推論戦略が,様々な回帰・スコアリングタスクや関連する評価指標に最適であることを示す。
我々は、カスタム回帰を最適化し、推定時にメトリクスをスコアリングする決定論的アプローチである、意識的距離 LLM 推論を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement [40.57471062885033]
我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。
MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [63.69441506085566]
本稿では,リストワイズ優先最適化(LiPO)フレームワークについて述べる。このフレームワークでは,評価可能な応答のランクリストから,ポリシーをより効率的に学習することができる。
2つの選好アライメントタスクにおいて,LiPO-lambdaがDPOとSLiCよりも明確なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Effective Large Language Model Adaptation for Improved Grounding and Citation Generation [48.07830615309543]
本稿では,検索した文の応答を基底にして,引用を提供することにより,大規模言語モデル(LLM)の改善に焦点を当てる。
我々は、全体論的観点から基盤を改善する新しいフレームワーク AGREE を提案する。
我々のフレームワークは, LLMを調整し, その要求を自己評価し, 検索した文書に正確な引用を提供する。
論文 参考訳(メタデータ) (2023-11-16T03:22:25Z) - LlamaRec: Two-Stage Recommendation using Large Language Models for
Ranking [10.671747198171136]
ランキングベースレコメンデーション(LlamaRec)のための大規模言語モデルを用いた2段階フレームワークを提案する。
特に,ユーザインタラクション履歴に基づいて候補を検索するために,小規模なシーケンシャルレコメンデータを用いる。
LlamaRecは、推奨パフォーマンスと効率の両方において、データセットの優れたパフォーマンスを一貫して達成している。
論文 参考訳(メタデータ) (2023-10-25T06:23:48Z) - A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking
with Large Language Models [38.42388083274069]
大言語モデル(LLM)は、ゼロショット文書ランキングタスクにおいて顕著な効果を示す。
LLMベースのゼロショットランキングでは、ポイントワイズ、ペアワイズ、リストワイズといったアプローチが提案されている。
それぞれのアプローチに固有の有効性と効率のトレードオフを特定します。
論文 参考訳(メタデータ) (2023-10-14T05:20:02Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。