論文の概要: Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning
- arxiv url: http://arxiv.org/abs/2509.25534v1
- Date: Fri, 19 Sep 2025 05:08:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.825284
- Title: Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning
- Title(参考訳): オープンエンディング推論のための自己回帰型ルーブリック強化学習
- Authors: Zhiling Ye, Yun Yue, Haowen Wang, Xudong Han, Jiadi Jiang, Cheng Wei, Lei Fan, Jiaxin Liang, Shuowen Zhang, Ji Li, Chunxiao Guo, Jian Wang, Peng Wei, Jinjie Gu,
- Abstract要約: 大規模言語モデルを現実世界の環境で展開するには,オープンエンド評価が不可欠だ。
HealthBenchの研究において、モデル自体をグレーダとして使用し、ルーリックベースの報酬信号を生成することにより、推論性能が大幅に向上することが観察された。
これを受けて、オープンエンディング推論のための自己回帰に基づく強化学習を導入する。
- 参考スコア(独自算出の注目度): 39.09144483843328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-ended evaluation is essential for deploying large language models in real-world settings. In studying HealthBench, we observe that using the model itself as a grader and generating rubric-based reward signals substantially improves reasoning performance. Remarkably, the trained model also becomes a stronger grader. Motivated by this, we introduce Self-Rewarding Rubric-Based Reinforcement Learning for Open-Ended Reasoning, a lightweight framework that enables faster and more resource-efficient training while surpassing baselines. Remarkably, on Qwen3-32B, training with just the 4000-sample HealthBench Easy subset is sufficient to obtain a model that exceeds GPT-5 on HealthBench Hard. Incorporating a small amount of teacher-graded data further enhances performance for less capable models.
- Abstract(参考訳): 大規模言語モデルを現実世界の環境で展開するには,オープンエンド評価が不可欠だ。
HealthBenchの研究において、モデル自体をグレーダとして使用し、ルーリックベースの報酬信号を生成することにより、推論性能が大幅に向上することが観察された。
注目すべきは、トレーニングされたモデルもより強力なグレーダとなることだ。
ベースラインを越えながら、より速く、よりリソース効率の良いトレーニングを可能にする軽量フレームワークであるOpen-Ended Reasoningのためのセルフリワードなルーブリックベース強化学習を紹介します。
Qwen3-32Bでは、4000サンプルのHealthBench Easyサブセットでトレーニングすれば、HealthBench HardのGPT-5を超えるモデルが得られる。
少量の教師級データを組み込むことで、より能力の低いモデルの性能が向上する。
関連論文リスト
- GHPO: Adaptive Guidance for Stable and Efficient LLM Reinforcement Learning [15.43938821214447]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)の自己改善を促進するための強力なパラダイムとして登場した。
本稿では,新しい困難に配慮した強化学習フレームワークであるGHPOについて紹介する。
GHPOは、適応的なプロンプトリファインメントを用いて、目標とするガイダンスを提供することにより、タスクの難易度を動的に校正する。
論文 参考訳(メタデータ) (2025-07-14T08:10:00Z) - A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models [103.88578274567784]
MeRF(Motivation-enhanced Reinforcement Finetuning)は、大規模共振モデルの強化微調整を強化する直感的かつ効果的な方法である。
MeRFは報酬仕様を直接プロンプトに注入し、最適化目標を認識するためのコンテキスト内モチベーションとして機能する。
MeRFはRLVRベースラインよりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2025-06-23T10:37:57Z) - ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models [9.30148520355391]
本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。
第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。
第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。
最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
論文 参考訳(メタデータ) (2025-06-20T03:10:52Z) - NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning [29.08784161597785]
NOVERは強化学習フレームワークであり、外部検証を必要とせず、標準的な教師付き微調整データのみを必要とする。
NOVERは、幅広いテキスト・テキスト・タスクにわたるインセンティブトレーニングを可能にし、DeepSeek R1 671Bのような大規模な推論モデルから抽出した同じサイズのモデルを7.7%向上させる。
論文 参考訳(メタデータ) (2025-05-21T21:12:35Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。