Fugu-MT 論文翻訳(概要): Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting

論文の概要: Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting

arxiv url: http://arxiv.org/abs/2306.17563v1
Date: Fri, 30 Jun 2023 11:32:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 12:45:21.405900
Title: Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
Title（参考訳）: 大きな言語モデルとペアワイズ・ランクング・プロンプティングによる効果的なテキスト・ランク付け
Authors: Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Jiaming Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, Michael Bendersky
Abstract要約: Pairwise Ranking Prompting (PRP) は,Large Language Models (LLM) を用いた文書のランク付け手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
参考スコア（独自算出の注目度）: 57.13214633281011
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ranking documents using Large Language Models (LLMs) by directly feeding the query and candidate documents into the prompt is an interesting and practical problem. However, there has been limited success so far, as researchers have found it difficult to outperform fine-tuned baseline rankers on benchmark datasets. We analyze pointwise and listwise ranking prompts used by existing methods and argue that off-the-shelf LLMs do not fully understand these ranking formulations, possibly due to the nature of how LLMs are trained. In this paper, we propose to significantly reduce the burden on LLMs by using a new technique called Pairwise Ranking Prompting (PRP). Our results are the first in the literature to achieve state-of-the-art ranking performance on standard benchmarks using moderate-sized open-sourced LLMs. On TREC-DL2020, PRP based on the Flan-UL2 model with 20B parameters outperforms the previous best approach in the literature, which is based on the blackbox commercial GPT-4 that has 50x (estimated) model size, by over 5% at NDCG@1. On TREC-DL2019, PRP is only inferior to the GPT-4 solution on the NDCG@5 and NDCG@10 metrics, while outperforming other existing solutions, such as InstructGPT which has 175B parameters, by over 10% for nearly all ranking metrics. Furthermore, we propose several variants of PRP to improve efficiency and show that it is possible to achieve competitive results even with linear complexity. We also discuss other benefits of PRP, such as supporting both generation and scoring LLM APIs, as well as being insensitive to input ordering.
Abstract（参考訳）: クエリと候補文書を直接プロンプトに入力することで、LLM(Large Language Models)を使用して文書をランク付けすることは、興味深い、実用的な問題である。しかし、これまでのところ成功は限られており、研究者はベンチマークデータセットで微調整されたベースラインランクを上回ることは難しいと結論付けている。既存の手法で用いられる点数的・リスト的なランキングのプロンプトを分析し,LLMがこれらのランキングの定式化を十分に理解していないことを論じる。本稿では,Pairwise Ranking Prompting (PRP) と呼ばれる新しい手法を用いて,LLMの負担を軽減することを提案する。本研究は,中規模オープンソースllmを用いて,標準ベンチマークで最先端のランキング性能を達成した最初の文献である。 TREC-DL2020において、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、NDCG@1において、50倍(推定)のモデルサイズを持つブラックボックス商用GPT-4をベースとした文献において、これまでのベストなアプローチよりも優れていた。 TREC-DL2019では、PRPは NDCG@5 と NDCG@10 の GPT-4 ソリューションにしか劣らないが、他の既存のソリューション、例えば175B のパラメータを持つ InstructGPT を10%以上上回っている。さらに,効率を向上させるために,いくつかのprp変種を提案し,線形複雑度でも競争結果が得られることを示す。また、LPM APIの生成とスコアリングの両方をサポートし、入力順序付けに敏感であるなど、PRPの他の利点についても論じる。

関連論文リスト

Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation [51.08869388483333]
大規模言語モデル(LLM)は、次のPOI(point-of-interest)レコメンデーションタスクに採用されている。次回のPOI勧告のための強化微調整フレームワークであるRefine-POIを提案する。
論文参考訳（メタデータ） (2025-06-19T02:51:10Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文参考訳（メタデータ） (2024-06-06T03:46:59Z)
Make Large Language Model a Better Ranker [20.532118635672763]
本稿では,Aligned Listwise Ranking Objectives (ALRO)を用いた大規模言語モデルフレームワークを提案する。 ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。
論文参考訳（メタデータ） (2024-03-28T07:22:16Z)
Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。 MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。 MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2024-02-19T13:57:55Z)
A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models [35.17291316942284]
本稿では,Large Language Models (LLMs) に基づくゼロショット文書ランキング手法を提案する。我々のアプローチは、LLMベースのゼロショットランキング(ポイントワイズ、ペアワイズ、リストワイズ)の既存のプロンプトアプローチを補完する。
論文参考訳（メタデータ） (2023-10-14T05:20:02Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。