論文の概要: IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.00677v1
- Date: Fri, 02 Jan 2026 12:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.571032
- Title: IRPO: Scaling the Bradley-Terry Model via Reinforcement Learning
- Title(参考訳): IRPO:強化学習によるBradley-Terryモデルのスケーリング
- Authors: Haonan Song, Qingchen Xie, Huan Zhu, Feng Xiao, Luxi Xing, Fuzhen Li, Liu Kang, Feng Jiang, Zhiyong Zheng, Fan Yang,
- Abstract要約: Intergroup Relative Preference Optimization (IRPO)は、確立されたBradley-TerryモデルをGRPOに組み込んだ新しいRLフレームワークである。
各応答に対してポイントワイズスコアを生成することにより、IRPOはRLトレーニング中に任意に多くの候補を効率的に評価することができる。
実験の結果,IRPOはポイントワイドGRM間のSOTA(State-of-the-art)性能を達成できた。
- 参考スコア(独自算出の注目度): 11.499402258204375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Reward Models (GRMs) have attracted considerable research interest in reward modeling due to their interpretability, inference-time scalability, and potential for refinement through reinforcement learning (RL). However, widely used pairwise GRMs create a computational bottleneck when integrated with RL algorithms such as Group Relative Policy Optimization (GRPO). This bottleneck arises from two factors: (i) the O(n^2) time complexity of pairwise comparisons required to obtain relative scores, and (ii) the computational overhead of repeated sampling or additional chain-of-thought (CoT) reasoning to improve performance. To address the first factor, we propose Intergroup Relative Preference Optimization (IRPO), a novel RL framework that incorporates the well-established Bradley-Terry model into GRPO. By generating a pointwise score for each response, IRPO enables efficient evaluation of arbitrarily many candidates during RL training while preserving interpretability and fine-grained reward signals. Experimental results demonstrate that IRPO achieves state-of-the-art (SOTA) performance among pointwise GRMs across multiple benchmarks, with performance comparable to that of current leading pairwise GRMs. Furthermore, we show that IRPO significantly outperforms pairwise GRMs in post-training evaluations.
- Abstract(参考訳): ジェネレーティブ・リワード・モデル(GRM)は、解釈可能性、推論時スケーラビリティ、強化学習(RL)による洗練の可能性から、報酬モデリングにかなりの研究関心を集めている。
しかし、広く使われているペアワイズ GRM は、グループ相対ポリシー最適化(GRPO)のようなRLアルゴリズムと統合した場合に計算ボトルネックを生み出す。
このボトルネックは2つの要因から生じます。
(i)相対スコアを得るのに必要なペアワイズ比較のO(n^2)時間複雑性
2)繰り返しサンプリングや追加のチェーン・オブ・シークレット(CoT)の計算オーバーヘッドは,性能向上に寄与する。
第1の要因に対処するために、よく確立されたBradley-TerryモデルをGRPOに組み込んだ新しいRLフレームワークであるIntergroup Relative Preference Optimization (IRPO)を提案する。
各応答に対してポイントワイズスコアを生成することにより、IRPOは、解釈可能性と微妙な報酬信号を保持しながら、RLトレーニング中に任意に多くの候補を評価することができる。
実験の結果、IRPOは複数のベンチマークでポイントワイドGRM間でのSOTA(State-of-the-art)性能を実現し、現在のリードペアGRMと同等の性能を示した。
さらに、IRPOは、訓練後評価においてペアワイズGRMよりも有意に優れていることを示す。
関連論文リスト
- ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Empowering Multi-Turn Tool-Integrated Reasoning with Group Turn Policy Optimization [20.004150645050537]
Group Turn Policy Optimization (GTPO) は、多ターンツール統合推論タスクにおける大規模言語モデル(LLM)のトレーニング用に設計された、新しい強化学習アルゴリズムである。
GTPOは、各ターンに対してきめ細かいフィードバックを提供するターンレベルの報酬割り当て、リターンベースの利点推定、自己監督型報酬形成という3つの重要なイノベーションを導入している。
総合評価の結果、GTPOは様々な推論ベンチマークでGRPOを平均3.0%上回っていることがわかった。
論文 参考訳(メタデータ) (2025-11-18T19:01:16Z) - Your Reward Function for RL is Your Best PRM for Search: Unifying RL and Search-Based TTS [62.22644307952087]
本稿では、RLベースと検索ベースTTSの最初の自然統合であるAIRL-Sを紹介する。
逆逆強化学習(AIRL)とグループ相対政策最適化(GRPO)を組み合わせることで、正しい推論トレースから高密度な動的PRMを直接学習する。
提案手法は,GPT-4oと一致して,ベースモデル上での平均9%の性能向上を図っている。
論文 参考訳(メタデータ) (2025-08-19T23:41:15Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。