Fugu-MT 論文翻訳(概要): Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting

論文の概要: Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting

arxiv url: http://arxiv.org/abs/2306.17563v2
Date: Thu, 28 Mar 2024 13:59:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 22:02:51.244358
Title: Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
Title（参考訳）: 大きな言語モデルとペアワイズ・ランクング・プロンプティングによる効果的なテキスト・ランク付け
Authors: Zhen Qin, Rolf Jagerman, Kai Hui, Honglei Zhuang, Junru Wu, Le Yan, Jiaming Shen, Tianqi Liu, Jialu Liu, Donald Metzler, Xuanhui Wang, Michael Bendersky,
Abstract要約: Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
参考スコア（独自算出の注目度）: 65.00288634420812
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Ranking documents using Large Language Models (LLMs) by directly feeding the query and candidate documents into the prompt is an interesting and practical problem. However, researchers have found it difficult to outperform fine-tuned baseline rankers on benchmark datasets. We analyze pointwise and listwise ranking prompts used by existing methods and argue that off-the-shelf LLMs do not fully understand these challenging ranking formulations. In this paper, we propose to significantly reduce the burden on LLMs by using a new technique called Pairwise Ranking Prompting (PRP). Our results are the first in the literature to achieve state-of-the-art ranking performance on standard benchmarks using moderate-sized open-sourced LLMs. On TREC-DL 2019&2020, PRP based on the Flan-UL2 model with 20B parameters performs favorably with the previous best approach in the literature, which is based on the blackbox commercial GPT-4 that has 50x (estimated) model size, while outperforming other LLM-based solutions, such as InstructGPT which has 175B parameters, by over 10% for all ranking metrics. By using the same prompt template on seven BEIR tasks, PRP outperforms supervised baselines and outperforms the blackbox commercial ChatGPT solution by 4.2% and pointwise LLM-based solutions by more than 10% on average NDCG@10. Furthermore, we propose several variants of PRP to improve efficiency and show that it is possible to achieve competitive results even with linear complexity.
Abstract（参考訳）: クエリと候補文書を直接プロンプトに入力することで、LLM(Large Language Models)を使用して文書をランク付けすることは、興味深い、実用的な問題である。しかし、研究者らは、ベンチマークデータセット上で微調整されたベースラインランクを上回ることは難しいと結論付けている。既存の手法で用いられるポイントワイドおよびリストワイドランキングのプロンプトを分析し,既成のLCMがこれらの難解なランキングの定式化を十分に理解していないことを論じる。本稿では,Pairwise Ranking Prompting (PRP) と呼ばれる新しい手法を用いて,LLMの負担を軽減することを提案する。本研究は,中等級のオープンソースLCMを用いて,標準ベンチマークにおける最先端のランク付け性能を達成した文献としては,今回が初めてである。 TREC-DL 2019&2020において、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、50倍(推定)モデルサイズを持つブラックボックス商用GPT-4をベースとした文献において、これまでのベストアプローチと好意的に機能する一方で、175Bパラメータを持つインストラクトGPTなど、他のLCMベースのソリューションよりも10%以上パフォーマンスが高い。 7つのBEIRタスクで同じプロンプトテンプレートを使用することで、PRPは教師付きベースラインを上回り、ブラックボックスの商用ChatGPTソリューションを4.2%上回り、ポイントワイドのLCMベースのソリューションを平均NDCG@10で10%以上上回ります。さらに, PRPのいくつかの変種を提案し, 線形複雑度を伴っても競合する結果が得られることを示した。

関連論文リスト

Leveraging the Power of Large Language Models in Entity Linking via Adaptive Routing and Targeted Reasoning [4.338036373287262]
ARTERは、深い微調整なしで高性能を実現する構造化パイプラインを提供する。これは、候補生成、コンテキストベースのスコアリング、適応ルーティング、選択推論を戦略的に組み合わせている。標準ベンチマークでは、ARTERはReFinEDを最大4.47%上回り、6つのデータセットのうち5つで平均2.53%上昇している。
論文参考訳（メタデータ） (2025-10-23T00:50:14Z)
Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文参考訳（メタデータ） (2025-10-20T04:16:28Z)
Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers [17.658542084440082]
大規模言語モデル(LLM)は,情報検索におけるタスクの再分類に応用され,高い性能を実現している。既存の研究では、遅延、フォワードパス数、入力トークン、出力トークンなどのプロキシメトリクスを使用して、LCMベースのリランカの効率を評価する。本稿では、PetaFLOP当たりのランキング品質(例えば、NDCGやMRR)と、PetaFLOP当たりのクエリ数(PetaFLOPあたりのクエリ数)を測るRCPを提案する。
論文参考訳（メタデータ） (2025-07-08T17:56:28Z)
Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation [51.08869388483333]
大規模言語モデル(LLM)は、次のPOI(point-of-interest)レコメンデーションタスクに採用されている。次回のPOI勧告のための強化微調整フレームワークであるRefine-POIを提案する。
論文参考訳（メタデータ） (2025-06-19T02:51:10Z)
Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。 TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文参考訳（メタデータ） (2025-03-08T03:14:26Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文参考訳（メタデータ） (2024-06-06T03:46:59Z)
Make Large Language Model a Better Ranker [20.532118635672763]
本稿では,Aligned Listwise Ranking Objectives (ALRO)を用いた大規模言語モデルフレームワークを提案する。 ALROは、LLMの能力とランキングタスクの微妙な要求とのギャップを埋めるように設計されている。評価研究により,ALROは既存の埋め込み型レコメンデーション法とLLMベースのレコメンデーションベースラインの両方より優れていることがわかった。
論文参考訳（メタデータ） (2024-03-28T07:22:16Z)
Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。 MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。 MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2024-02-19T13:57:55Z)
A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models [35.17291316942284]
本稿では,Large Language Models (LLMs) に基づくゼロショット文書ランキング手法を提案する。我々のアプローチは、LLMベースのゼロショットランキング(ポイントワイズ、ペアワイズ、リストワイズ)の既存のプロンプトアプローチを補完する。
論文参考訳（メタデータ） (2023-10-14T05:20:02Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。 LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文参考訳（メタデータ） (2023-04-19T10:16:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。