論文の概要: Large Language Models are Effective Text Rankers with Pairwise Ranking
Prompting
- arxiv url: http://arxiv.org/abs/2306.17563v1
- Date: Fri, 30 Jun 2023 11:32:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:45:21.405900
- Title: Large Language Models are Effective Text Rankers with Pairwise Ranking
Prompting
- Title(参考訳): 大きな言語モデルとペアワイズ・ランクング・プロンプティングによる効果的なテキスト・ランク付け
- Authors: Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Jiaming
Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, Michael Bendersky
- Abstract要約: Pairwise Ranking Prompting (PRP) は,Large Language Models (LLM) を用いた文書のランク付け手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
- 参考スコア(独自算出の注目度): 57.13214633281011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ranking documents using Large Language Models (LLMs) by directly feeding the
query and candidate documents into the prompt is an interesting and practical
problem. However, there has been limited success so far, as researchers have
found it difficult to outperform fine-tuned baseline rankers on benchmark
datasets. We analyze pointwise and listwise ranking prompts used by existing
methods and argue that off-the-shelf LLMs do not fully understand these ranking
formulations, possibly due to the nature of how LLMs are trained. In this
paper, we propose to significantly reduce the burden on LLMs by using a new
technique called Pairwise Ranking Prompting (PRP). Our results are the first in
the literature to achieve state-of-the-art ranking performance on standard
benchmarks using moderate-sized open-sourced LLMs. On TREC-DL2020, PRP based on
the Flan-UL2 model with 20B parameters outperforms the previous best approach
in the literature, which is based on the blackbox commercial GPT-4 that has 50x
(estimated) model size, by over 5% at NDCG@1. On TREC-DL2019, PRP is only
inferior to the GPT-4 solution on the NDCG@5 and NDCG@10 metrics, while
outperforming other existing solutions, such as InstructGPT which has 175B
parameters, by over 10% for nearly all ranking metrics. Furthermore, we propose
several variants of PRP to improve efficiency and show that it is possible to
achieve competitive results even with linear complexity. We also discuss other
benefits of PRP, such as supporting both generation and scoring LLM APIs, as
well as being insensitive to input ordering.
- Abstract(参考訳): クエリと候補文書を直接プロンプトに入力することで、LLM(Large Language Models)を使用して文書をランク付けすることは、興味深い、実用的な問題である。
しかし、これまでのところ成功は限られており、研究者はベンチマークデータセットで微調整されたベースラインランクを上回ることは難しいと結論付けている。
既存の手法で用いられる点数的・リスト的なランキングのプロンプトを分析し,LLMがこれらのランキングの定式化を十分に理解していないことを論じる。
本稿では,Pairwise Ranking Prompting (PRP) と呼ばれる新しい手法を用いて,LLMの負担を軽減することを提案する。
本研究は,中規模オープンソースllmを用いて,標準ベンチマークで最先端のランキング性能を達成した最初の文献である。
TREC-DL2020において、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、NDCG@1において、50倍(推定)のモデルサイズを持つブラックボックス商用GPT-4をベースとした文献において、これまでのベストなアプローチよりも優れていた。
TREC-DL2019では、PRPは NDCG@5 と NDCG@10 の GPT-4 ソリューションにしか劣らないが、他の既存のソリューション、例えば175B のパラメータを持つ InstructGPT を10%以上上回っている。
さらに,効率を向上させるために,いくつかのprp変種を提案し,線形複雑度でも競争結果が得られることを示す。
また、LPM APIの生成とスコアリングの両方をサポートし、入力順序付けに敏感であるなど、PRPの他の利点についても論じる。
関連論文リスト
- Meta Ranking: Less Capable Language Models are Capable for Single
Response Judgement [40.57471062885033]
我々は、個々の応答の信頼性を判断するために、 $textitMeta$ $textitRanking$ (MR) という新しい方法を提案する。
MRは、クエリルーティングと反復的なトレーニングデータフィルタリングという2つの実用的な応用において、LLMの性能を高めるために使用できる。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Long Is More for Alignment: A Simple but Tough-to-Beat Baseline for
Instruction Fine-Tuning [41.82986713193004]
標準データセットから長いレスポンスで1000の命令を選択するという単純なベースラインが、洗練された手法を一貫して上回ることを示す。
このような長い命令の軽量化は、微調整LDMの能力をさらに向上させることができる。
以上の結果から,最も長い命令を微調整することが,命令微調整の研究においてデフォルトの基準となることが示唆された。
論文 参考訳(メタデータ) (2024-02-07T13:32:11Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [63.69441506085566]
本稿では,リストワイズ優先最適化(LiPO)フレームワークについて述べる。このフレームワークでは,評価可能な応答のランクリストから,ポリシーをより効率的に学習することができる。
2つの選好アライメントタスクにおいて,LiPO-lambdaがDPOとSLiCよりも明確なマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z) - Instruction Distillation Makes Large Language Models Efficient Zero-shot
Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。
まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。
提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文 参考訳(メタデータ) (2023-11-02T19:16:21Z) - A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking
with Large Language Models [38.42388083274069]
大言語モデル(LLM)は、ゼロショット文書ランキングタスクにおいて顕著な効果を示す。
LLMベースのゼロショットランキングでは、ポイントワイズ、ペアワイズ、リストワイズといったアプローチが提案されている。
それぞれのアプローチに固有の有効性と効率のトレードオフを特定します。
論文 参考訳(メタデータ) (2023-10-14T05:20:02Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。