論文の概要: ERank: Fusing Supervised Fine-Tuning and Reinforcement Learning for Effective and Efficient Text Reranking
- arxiv url: http://arxiv.org/abs/2509.00520v1
- Date: Sat, 30 Aug 2025 14:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.266935
- Title: ERank: Fusing Supervised Fine-Tuning and Reinforcement Learning for Effective and Efficient Text Reranking
- Title(参考訳): ERank: 効率的かつ効率的なテキストリグレードのためのファインチューニングと強化学習の融合
- Authors: Yuzheng Cai, Yanzhao Zhang, Dingkun Long, Mingxin Li, Pengjun Xie, Weiguo Zheng,
- Abstract要約: ERankは、多種多様な関連シナリオにまたがるLLMから構築された、非常に効率的で効率的なポイントワイド・リランカである。
スーパーバイザードファインチューニング(SFT)から始まる新しい2段階トレーニングパイプラインを提案する。
この段階では、二進ラベルを超えてモデルを生成的に訓練し、微粒な整数スコアを出力し、妥当性の識別を大幅に向上させる。
BRIGHT, FollowIR, TREC DL, BEIRベンチマークにおけるERankリランカの評価を行い, 既存手法と比較して優れた有効性と堅牢性を示した。
- 参考スコア(独自算出の注目度): 33.25740773392183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text reranking models are a crucial component in modern systems like Retrieval-Augmented Generation, tasked with selecting the most relevant documents prior to generation. However, current Large Language Models (LLMs) powered rerankers often face a fundamental trade-off. On one hand, Supervised Fine-Tuning based pointwise methods that frame relevance as a binary classification task lack the necessary scoring discrimination, particularly for those built on reasoning LLMs. On the other hand, approaches designed for complex reasoning often employ powerful yet inefficient listwise formulations, rendering them impractical for low latency applications. To resolve this dilemma, we introduce ERank, a highly effective and efficient pointwise reranker built from a reasoning LLM that excels across diverse relevance scenarios. We propose a novel two-stage training pipeline that begins with Supervised Fine-Tuning (SFT). In this stage, we move beyond binary labels and train the model generatively to output fine grained integer scores, which significantly enhances relevance discrimination. The model is then further refined using Reinforcement Learning (RL) with a novel, listwise derived reward. This technique instills global ranking awareness into the efficient pointwise architecture. We evaluate the ERank reranker on the BRIGHT, FollowIR, TREC DL, and BEIR benchmarks, demonstrating superior effectiveness and robustness compared to existing approaches. On the reasoning-intensive BRIGHT benchmark, our ERank-4B achieves an nDCG@10 of 38.7, while a larger 32B variant reaches a state of the art nDCG@10 of 40.2.
- Abstract(参考訳): テキストリグレードモデルは、Retrieval-Augmented Generationのような現代システムにおいて重要なコンポーネントであり、生成前に最も関連性の高いドキュメントを選択することを任務とする。
しかし、現在のLLM(Large Language Models)によるリランカは、基本的なトレードオフに直面していることが多い。
一方,2値分類タスクとしての妥当性を規定するSupervised Fine-Tuningに基づくポイントワイド手法では,特にLLMの推論に基づく評価において,必要なスコアの識別が欠如している。
一方、複雑な推論のために設計されたアプローチは、しばしば強力だが非効率なリストワイドの定式化を採用しており、低レイテンシアプリケーションでは実用的ではない。
このジレンマを解決するために,多種多様な関連シナリオにまたがるLLMから構築した高効率で効率的なポイントワイド・リランカであるERankを紹介した。
そこで我々は,Supervised Fine-Tuning (SFT) から始まる新しい2段階トレーニングパイプラインを提案する。
この段階では、二進ラベルを超えてモデルを生成的に訓練し、微粒な整数スコアを出力し、妥当性の識別を大幅に向上させる。
モデルはさらに強化学習 (Reinforcement Learning, RL) を用いて改良され、リストワイズな報酬が与えられる。
この手法は、グローバルなランキング認識を効率的なポイントワイドアーキテクチャに注入する。
BRIGHT, FollowIR, TREC DL, BEIRベンチマークにおけるERankリランカの評価を行い, 既存手法と比較して優れた有効性と堅牢性を示した。
推論集約的なBRIGHTベンチマークでは、ERank-4Bは38.7のnDCG@10を達成する一方、大きな32Bの変種は40.2のnDCG@10に達する。
関連論文リスト
- TFRank: Think-Free Reasoning Enables Practical Pointwise LLM Ranking [21.930228130429573]
LLM(Large Language Models)上に構築された推論集約型ランキングモデルは、顕著な進歩を遂げた。
既存のアプローチは、しばしば大規模なLCMと明示的なチェーン・オブ・ソート(CoT)推論に依存している。
我々は,小規模LLMに基づく効率的なポイントワイズ推論ランキングである textbfTFRank を提案する。
論文 参考訳(メタデータ) (2025-08-13T06:47:58Z) - GLiClass: Generalist Lightweight Model for Sequence Classification Tasks [49.2639069781367]
本稿では,シーケンス分類タスクにGLiNERアーキテクチャを適用する新しい手法であるGLiClassを提案する。
提案手法は,ゼロショットおよび少数ショット学習シナリオに必要な柔軟性を維持しつつ,埋め込み方式に匹敵する高い精度と効率を実現する。
論文 参考訳(メタデータ) (2025-08-11T06:22:25Z) - ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability [83.16850534680505]
本稿では,自動推論集約型トレーニングデータ合成フレームワークを提案する。
自己整合性データフィルタリング機構は、データ品質を保証するために設計されている。
トレーニングされた推論集約型リランカ textbfReasonRank は,BRIGHT のリーダボード上での最先端 (SOTA) のパフォーマンス40.6 を達成する。
論文 参考訳(メタデータ) (2025-08-09T17:26:18Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Instruction Distillation Makes Large Language Models Efficient Zero-shot
Rankers [56.12593882838412]
本稿では,文書のランク付けのための新しい命令蒸留手法を提案する。
まず、複雑な命令で効果的なペアワイズ手法を用いて文書をランク付けし、簡単な指示で教師の予測をポイントワイズ方式で抽出する。
提案手法は,MonoT5のような既存の教師付きメソッドの性能を超越し,最先端のゼロショット手法と同等である。
論文 参考訳(メタデータ) (2023-11-02T19:16:21Z) - A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models [35.17291316942284]
本稿では,Large Language Models (LLMs) に基づくゼロショット文書ランキング手法を提案する。
我々のアプローチは、LLMベースのゼロショットランキング(ポイントワイズ、ペアワイズ、リストワイズ)の既存のプロンプトアプローチを補完する。
論文 参考訳(メタデータ) (2023-10-14T05:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。