論文の概要: Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.06034v1
- Date: Sat, 08 Mar 2025 03:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:40.450279
- Title: Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning
- Title(参考訳): Rank-R1:強化学習によるLCMベースのドキュメントリランカの推論強化
- Authors: Shengyao Zhuang, Xueguang Ma, Bevan Koopman, Jimmy Lin, Guido Zuccon,
- Abstract要約: ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
- 参考スコア(独自算出の注目度): 76.50690734636477
- License:
- Abstract: In this paper, we introduce Rank-R1, a novel LLM-based reranker that performs reasoning over both the user query and candidate documents before performing the ranking task. Existing document reranking methods based on large language models (LLMs) typically rely on prompting or fine-tuning LLMs to order or label candidate documents according to their relevance to a query. For Rank-R1, we use a reinforcement learning algorithm along with only a small set of relevance labels (without any reasoning supervision) to enhance the reasoning ability of LLM-based rerankers. Our hypothesis is that adding reasoning capabilities to the rerankers can improve their relevance assessement and ranking capabilities. Our experiments on the TREC DL and BRIGHT datasets show that Rank-R1 is highly effective, especially for complex queries. In particular, we find that Rank-R1 achieves effectiveness on in-domain datasets at par with that of supervised fine-tuning methods, but utilizing only 18\% of the training data used by the fine-tuning methods. We also find that the model largely outperforms zero-shot and supervised fine-tuning when applied to out-of-domain datasets featuring complex queries, especially when a 14B-size model is used. Finally, we qualitatively observe that Rank-R1's reasoning process improves the explainability of the ranking results, opening new opportunities for search engine results presentation and fruition.
- Abstract(参考訳): 本稿では、ランキングタスクを実行する前に、ユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカであるRange-R1を紹介する。
既存の大規模言語モデル(LLM)に基づく文書再分類手法は、クエリとの関連性に応じて候補文書を注文またはラベル付けするために、LLMを誘導または微調整することに依存するのが一般的である。
Rank-R1では、LLMベースのリランカの推論能力を高めるために、強化学習アルゴリズムと、少数の関連ラベル(推論の監督なしに)を併用する。
我々の仮説は、リランカに推論機能を追加することで、その妥当性評価とランキング機能を改善することができるというものである。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
特に、Range-R1は、教師付き微調整法と同等のドメイン内データセットで有効であるが、微調整法で使用されるトレーニングデータの18%しか利用していないことが判明した。
また、複雑なクエリを含むドメイン外のデータセットに適用した場合、特に14Bサイズのモデルを使用する場合、このモデルがゼロショットや教師付き微調整よりも優れていることも判明した。
最後に,Ranc-R1の推論プロセスがランキング結果の説明可能性を改善し,検索結果の提示と成果の新たな機会を開くことを質的に観察する。
関連論文リスト
- RRADistill: Distilling LLMs' Passage Ranking Ability for Long-Tail Queries Document Re-Ranking on a Search Engine [2.0379810233726126]
大規模言語モデル(LLM)は、クエリとドキュメント間の意味的関係を理解するのに優れている。
これらのクエリは、少ないユーザエンゲージメントと限られたフィードバックのため、フィードバックベースのランキングでは難しい。
本稿では,エンコーダモデルとデコーダモデルの両方に対して,効率的なラベル生成パイプラインと新しいsLLMトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T11:28:06Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Instruction Distillation Makes Large Language Models Efficient Zero-shot
Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。
まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。
提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文 参考訳(メタデータ) (2023-11-02T19:16:21Z) - GAR-meets-RAG Paradigm for Zero-Shot Information Retrieval [16.369071865207808]
本稿では,既存のパラダイムの課題を克服する新しいGAR-meets-RAG再帰の定式化を提案する。
鍵となる設計原則は、リライト・検索段階がシステムのリコールを改善し、最終段階が精度を向上させることである。
我々の手法はBEIRベンチマークで新たな最先端性を確立し、8つのデータセットのうち6つでRecall@100とnDCG@10の指標で過去の最高の結果を上回った。
論文 参考訳(メタデータ) (2023-10-31T03:52:08Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Open-source Large Language Models are Strong Zero-shot Query Likelihood
Models for Document Ranking [36.90911173089409]
大規模言語モデル(LLM)は、効果的なクエリ類似モデル(QLM)として登場した。
本稿では,近年のLLMにおけるゼロショットランキングの有効性について検討する。
LLMをベースとしたQLMとハイブリッドゼロショットレトリバーを統合した,最先端のランキングシステムを提案する。
論文 参考訳(メタデータ) (2023-10-20T02:54:42Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。