論文の概要: R1-Ranker: Teaching LLM Rankers to Reason
- arxiv url: http://arxiv.org/abs/2506.21638v2
- Date: Sat, 27 Sep 2025 23:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.073867
- Title: R1-Ranker: Teaching LLM Rankers to Reason
- Title(参考訳): R1-Ranker:LLMランク付けを推論に教える
- Authors: Tao Feng, Zhigang Hua, Zijie Lei, Yan Xie, Shuang Yang, Bo Long, Jiaxuan You,
- Abstract要約: R1-Rankerは強化学習に基づく推論インセンティブフレームワークである。
IRankerは、より深い推論を促進するために、段階的な報酬でランク付けを反復的排除プロセスに分解する。
我々は、レコメンデーション、ルーティング、通過ランキングにまたがる9つのデータセットに基づいて、統一されたR1-Rankerを評価した。
- 参考スコア(独自算出の注目度): 35.35360001710222
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently shown strong reasoning abilities in domains like mathematics, coding, and scientific problem-solving, yet their potential for ranking tasks, where prime examples include retrieval, recommender systems, and LLM routing, remains underexplored. Ranking requires complex reasoning across heterogeneous candidates, but existing LLM-based rankers are often domain-specific, tied to fixed backbones, and lack iterative refinement, limiting their ability to fully exploit LLMs' reasoning potential. To address these challenges, we propose R1-Ranker, a reasoning-incentive framework built on reinforcement learning, with two complementary designs: DRanker, which generates full rankings in one shot, and IRanker, which decomposes ranking into an iterative elimination process with step-wise rewards to encourage deeper reasoning. We evaluate unified R1-Rankers on nine datasets spanning recommendation, routing, and passage ranking, showing that IRanker-3B consistently achieves state-of-the-art performance, surpasses larger 7B models on some tasks, and yields a 15.7% average relative improvement. Ablation and generalization experiments further confirm the critical role of reinforcement learning and iterative reasoning, with IRanker-3B improving zero-shot performance by over 9% on out-of-domain tasks and reasoning traces boosting other LLMs by up to 22.87%. These results demonstrate that unifying diverse ranking tasks with a single reasoning-driven foundation model is both effective and essential for advancing LLM reasoning in ranking scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、数学、コーディング、科学的な問題解決といった分野において強力な推論能力を示しているが、検索、レコメンダシステム、LLMルーティングといった主要な例がまだ探索されていないランキングタスクの可能性を秘めている。
ランク付けには異種候補間の複雑な推論が必要であるが、既存のLSMベースのランク付けはドメイン固有であり、固定されたバックボーンに結び付けられ、反復的な洗練が欠如しており、LSMの推論能力を最大限に活用する能力に制限されている。
これらの課題に対処するために、強化学習を基盤とした推論インセンティブフレームワークであるR1-Rankerと、1ショットで完全なランキングを生成するDRankerと、より深い推論を促進するためにステップワイドな報酬を伴う反復的排除プロセスにランク付けを分解するIRankerの2つの補完設計を提案する。
その結果、IRanker-3Bは最新技術の性能を一貫して達成し、いくつかのタスクにおいてより大きな7Bモデルを超え、平均相対改善率15.7%となることがわかった。
アブレーションと一般化の実験は、強化学習と反復推論の重要な役割をさらに確認し、IRanker-3Bは、ドメイン外のタスクでゼロショット性能を9%以上改善し、推論トレースは、他のLLMを最大22.87%向上させた。
これらの結果から,単一推論に基づく基礎モデルによる多様なランキングタスクの統一が,ランキングシナリオにおけるLCM推論の進展に不可欠であることが示唆された。
関連論文リスト
- Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - OrderChain: A General Prompting Paradigm to Improve Ordinal Understanding Ability of MLLM [28.249198952483685]
本稿では,MLLMの規則的理解能力を,特異性と共通性モデリングにより向上させる,新規で汎用的なプロンプトパラダイムであるOrderChainを提案する。
OrderChainを用いたLarge Language and Vision Assistantモデルは,多様なORデータセットに基づいて,ベースラインのLLaVAを大幅に改善することを示す。
私たちの知る限りでは、OrderChainは、ORタスクのMLLMを拡張した最初の作品です。
論文 参考訳(メタデータ) (2025-04-07T07:53:44Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。