論文の概要: ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking
- arxiv url: http://arxiv.org/abs/2506.03487v1
- Date: Wed, 04 Jun 2025 02:00:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.105389
- Title: ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking
- Title(参考訳): ProRank: 小規模言語モデルの強化学習によるプロンプトワームアップ
- Authors: Xianming Li, Aamir Shakir, Rui Huang, Julius Lipp, Jing Li,
- Abstract要約: 本稿では,SLM ベースの文書更新のための新しい2段階トレーニング手法 ProRank を提案する。
まず、強化学習GRPOを用いてSLMを操り、タスクプロンプトを理解するプロンプトウォームアップステージを提案する。
そこで我々は,精巧なスコア学習段階を連続的に微調整し,付加層を導入することなく品質向上を図る。
- 参考スコア(独自算出の注目度): 8.244386008877441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reranking is fundamental to information retrieval and retrieval-augmented generation, with recent Large Language Models (LLMs) significantly advancing reranking quality. While recent advances with LLMs have significantly improved document reranking quality, current approaches primarily rely on large-scale LLMs (>7B parameters) through zero-shot prompting, presenting high computational costs. Small Language Models (SLMs) offer a promising alternative because of their efficiency, but our preliminary quantitative analysis reveals they struggle with understanding task prompts without fine-tuning. This limits their effectiveness for document reranking tasks. To address this issue, we introduce a novel two-stage training approach, ProRank, for SLM-based document reranking. First, we propose a prompt warmup stage using reinforcement learning GRPO to steer SLMs to understand task prompts and generate more accurate coarse-grained binary relevance scores for document reranking. Then, we continuously fine-tune the SLMs with a fine-grained score learning stage without introducing additional layers to further improve the reranking quality. Comprehensive experimental results demonstrate that the proposed ProRank consistently outperforms both the most advanced open-source and proprietary reranking models. Notably, our lightweight ProRank-0.5B model even surpasses the powerful 32B LLM reranking model on the BEIR benchmark, establishing that properly trained SLMs can achieve superior document reranking performance while maintaining computational efficiency.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) は, 情報検索と検索に基礎を置き, 品質の大幅な向上を図っている。
LLMの最近の進歩は文書の更新品質を大幅に向上させたが、現在のアプローチは主にゼロショットプロンプトによる大規模LCM(>7Bパラメータ)に依存しており、計算コストが高い。
小言語モデル(SLM)はその効率性から有望な代替手段を提供するが、予備的な定量的分析により、微調整なしでタスクプロンプトを理解するのに苦労していることが分かる。
これにより、ドキュメントの再ランク付けタスクの有効性が制限される。
この問題に対処するため,SLM ベースの文書更新のための新しい2段階トレーニング手法 ProRank を導入する。
まず、強化学習GRPOを用いて、タスクプロンプトを理解し、文書再ランクのためのより正確な粗い2値関連スコアを生成する。
そこで我々は,精巧なスコア学習段階を連続的に微調整し,付加層を導入することなく品質向上を図る。
総合的な実験結果から、提案されたProRankは、最も先進的なオープンソースモデルとプロプライエタリなリグレードモデルの両方を一貫して上回っていることが示されている。
特に,我々の軽量な ProRank-0.5B モデルは,BEIR ベンチマークの強力な 32B LLM モデルよりも優れており,適切に訓練された SLM が計算効率を保ちながら優れた文書更新性能を達成できることを確認した。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。
その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文 参考訳(メタデータ) (2024-05-01T16:13:54Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。