論文の概要: IRanker: Towards Ranking Foundation Model
- arxiv url: http://arxiv.org/abs/2506.21638v1
- Date: Wed, 25 Jun 2025 17:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.948412
- Title: IRanker: Towards Ranking Foundation Model
- Title(参考訳): IRanker: ランキングファウンデーションモデルを目指して
- Authors: Tao Feng, Zhigang Hua, Zijie Lei, Yan Xie, Shuang Yang, Bo Long, Jiaxuan You,
- Abstract要約: 我々は、単一のランキング基盤モデル(FM)を用いてランキングタスクを統合することを提案する。
IRankerは強化学習(RL)と反復デコーディングを備えたランキングフレームワークである。
一つのIRanker-3Bが複数のデータセットに対して最先端の結果を得ることを示す。
- 参考スコア(独自算出の注目度): 26.71771958251611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ranking tasks are ubiquitous, encompassing applications such as recommendation systems, LLM routing, and item re-ranking. We propose to unify these tasks using a single ranking foundation model (FM), as it eliminates the need for designing different models for each specific ranking task. However, unlike general supervision tasks in LLMs, ranking tasks do not have clear labels for supervision, posing great challenges to developing a ranking FM. To overcome these challenges, we propose IRanker, a ranking FM framework with reinforcement learning (RL) and iterative decoding. Our insight is to decompose the complex ranking task into an iterative decoding process that eliminates the worst candidate from the candidate pool step by step, which significantly reduces the output combinatorial space and better utilizes the limited context length during RL training. We meticulously train and comprehensively evaluate an IRanker-3B model on nine datasets across three scenarios: recommendation, routing, and passage ranking. The results show that a single IRanker-3B achieves state-of-the-art results on several datasets compared to models of similar size, and even surpasses the performance of larger models on certain datasets. We further demonstrate the effectiveness of our RL design and the robustness of the iterative mechanism across different LLM sizes. Moreover, we conducted both in-domain and out-of-domain zero-shot generalization experiments, which showed that IRanker-3B achieved good generalization on in-domain ranking tasks compared to the base LLM by at least 5% improvement. Surprisingly, on out-of-domain generic LLM tasks, IRanker-3B outperformed the base model by at least 9% on GSM8K, IFEval, and MathQA. In addition, the thoughts generated by IRanker-3B during training could further enhance zero-shot LLM performance.
- Abstract(参考訳): ランク付けタスクはユビキタスで、レコメンデーションシステム、LLMルーティング、アイテムの再ランク付けなどのアプリケーションを含む。
本研究では,各ランク付けタスクごとに異なるモデルを設計する必要がなくなるため,単一のランク付け基盤モデル(FM)を用いてこれらのタスクを統合することを提案する。
しかし、LLMの一般的な監督タスクとは異なり、ランク付けタスクには監督のための明確なラベルがなく、ランク付けされたFMを開発する上で大きな課題となっている。
これらの課題を克服するために、強化学習(RL)と反復復号を伴うランキングFMフレームワークIRankerを提案する。
我々の洞察は、複雑なランキングタスクを反復的復号プロセスに分解し、候補プールステップから最悪の候補を段階的に排除し、出力組合せ空間を著しく削減し、RLトレーニング中の限られた文脈長をよりよく活用することである。
我々は、IRanker-3Bモデルを3つのシナリオ(レコメンデーション、ルーティング、通過ランキング)にわたる9つのデータセット上で慎重に訓練し、包括的に評価する。
その結果、単一のIRanker-3Bは、類似サイズのモデルと比較して、いくつかのデータセットで最先端の結果を達成し、特定のデータセットでより大きなモデルのパフォーマンスを超越していることがわかった。
さらに、RL設計の有効性と、異なるLLMサイズにまたがる反復機構の堅牢性を示す。
さらに、ドメイン内およびドメイン外ゼロショットの一般化実験を行い、IRanker-3Bは、ベースLLMと比較して少なくとも5%改善した。
驚くべきことに、ドメイン外ジェネリックLLMタスクでは、IRanker-3BはGSM8K、IFEval、MathQAで少なくとも9%パフォーマンスが向上した。
さらに、IRanker-3Bが訓練中に生み出した思想は、ゼロショットLLMの性能をさらに向上させる可能性がある。
関連論文リスト
- Generative Reasoning Re-ranker [24.386586034456673]
Generative Reasoning Reranker (GR2)は3段階のトレーニングパイプラインを備えたエンドツーエンドのフレームワークである。
GR2は、慎重に設計されたプロンプトとリジェクションサンプリングにより高品質な推論トレースを生成する。
2つの実世界のデータセットの実験では、GR2の有効性が示されている。
論文 参考訳(メタデータ) (2026-02-08T02:12:24Z) - Ranking-aware Reinforcement Learning for Ordinal Ranking [19.678002354790582]
本稿では,これらの関係を明示的に学習する新しいRLフレームワークであるRARLを提案する。
RARLはレグレッションとL2R(Learning-to-Rank)を統合する統一された目的を持ち、2つのタスク間の相互改善を可能にする。
トレーニングをさらに強化するため,制御ノイズを注入して探索を改善し,サドル地点での停滞を防止するリアクションミューテーション操作(RMO)を導入する。
論文 参考訳(メタデータ) (2026-01-28T13:22:42Z) - ERank: Fusing Supervised Fine-Tuning and Reinforcement Learning for Effective and Efficient Text Reranking [33.25740773392183]
ERankは、多種多様な関連シナリオにまたがるLLMから構築された、非常に効率的で効率的なポイントワイド・リランカである。
スーパーバイザードファインチューニング(SFT)から始まる新しい2段階トレーニングパイプラインを提案する。
この段階では、二進ラベルを超えてモデルを生成的に訓練し、微粒な整数スコアを出力し、妥当性の識別を大幅に向上させる。
BRIGHT, FollowIR, TREC DL, BEIRベンチマークにおけるERankリランカの評価を行い, 既存手法と比較して優れた有効性と堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-30T14:56:53Z) - ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability [83.16850534680505]
本稿では,自動推論集約型トレーニングデータ合成フレームワークを提案する。
自己整合性データフィルタリング機構は、データ品質を保証するために設計されている。
トレーニングされた推論集約型リランカ textbfReasonRank は,BRIGHT のリーダボード上での最先端 (SOTA) のパフォーマンス40.6 を達成する。
論文 参考訳(メタデータ) (2025-08-09T17:26:18Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - OrderChain: A General Prompting Paradigm to Improve Ordinal Understanding Ability of MLLM [28.249198952483685]
本稿では,MLLMの規則的理解能力を,特異性と共通性モデリングにより向上させる,新規で汎用的なプロンプトパラダイムであるOrderChainを提案する。
OrderChainを用いたLarge Language and Vision Assistantモデルは,多様なORデータセットに基づいて,ベースラインのLLaVAを大幅に改善することを示す。
私たちの知る限りでは、OrderChainは、ORタスクのMLLMを拡張した最初の作品です。
論文 参考訳(メタデータ) (2025-04-07T07:53:44Z) - CoRanking: Collaborative Ranking with Small and Large Ranking Agents [94.09834629572403]
大規模言語モデル(LLM)は、優れたリストワイドランキング性能を示している。
CoRankingは、小規模と大規模なランキングモデルを組み合わせて、効率的かつ効果的なランク付けを行う。
論文 参考訳(メタデータ) (2025-03-30T13:00:52Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Aggregation of Reasoning: A Hierarchical Framework for Enhancing Answer Selection in Large Language Models [84.15513004135576]
最近の研究は、複数の推論チェーンをサンプリングし、応答周波数に基づいてアンサンブルすることで、Large Language Models(LLMs)の推論性能を向上させる。
このアプローチは、正しい答えが少数派である場合に失敗する。
階層的推論集約フレームワークAoRを導入し、推論連鎖の評価に基づいて回答を選択する。
論文 参考訳(メタデータ) (2024-05-21T17:12:19Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Routing to the Expert: Efficient Reward-guided Ensemble of Large
Language Models [69.51130760097818]
本研究では,報奨誘導型ルーティング手法であるZooterを提案する。
さまざまなドメインやタスクについて26のサブセットを持つ総合的なベンチマークコレクション上でZooterを評価する。
論文 参考訳(メタデータ) (2023-11-15T04:40:43Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。