論文の概要: Focal Reward: Balanced Reinforcement Learning under Rubric-Based Rewards
- arxiv url: http://arxiv.org/abs/2605.26579v1
- Date: Tue, 26 May 2026 05:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.692276
- Title: Focal Reward: Balanced Reinforcement Learning under Rubric-Based Rewards
- Title(参考訳): フォカル・リワード:ルーブリック・リワードの下でのバランスの取れた強化学習
- Authors: Yu Huang, Zihua Zhao, Zhaoxin Huan, Wanli Gu, Feng Hong, Xinmu Ge, Lin Yuan, Weichang Wu, Qiang Hu, Xiaolu Zhang, Jun Zhou, Jiangchao Yao,
- Abstract要約: 本稿では,ルーリック型報酬による強化学習の訓練のバランスをとるための新しい目的であるFocal Rewardを提案する。
3つのモデルスケールと6つのベンチマーク実験により、Focal Reward法が最強の静的アグリゲーションベースラインを上回ります。
- 参考スコア(独自算出の注目度): 41.19082300691048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The open-ended generation in LLMs usually requires multi-dimensional rubrics to adequately assess quality and guide the improvement of reinforcement learning. However, a critical dilemma inherent in this training paradigm is the imbalanced reward polarization along different rubric dimensions. Under this bottleneck, even if LLMs achieve relatively high rewards after training, they may still exhibit severe deficiencies in certain dimensions, leading to a direct deterioration in user experience. To address this problem, we propose Focal Reward, a novel objective to automatically balance the training of reinforcement learning under rubric-based rewards. Specifically, we first leverage an inverse reward projection mechanism to estimate the saturation degree of each criterion in the rubric, which forms the basis to calibrate the reward direction. Then, the final objective is designed with an automatically reweighting coefficient for each criterion to achieve the fine-grained balancing. Extensive experiments across three model scales and six benchmarks demonstrate that our Focal Reward method outperforms the strongest static aggregation baseline in all 18 model-benchmark comparisons. Rollout, mechanism, and ablation analyses further show that these gains arise from online, saturation-aware reallocation toward rubrics that still have room for improvement.
- Abstract(参考訳): LLMのオープンエンドジェネレーションは通常、品質を適切に評価し、強化学習の改善を導くために多次元ルーリックを必要とする。
しかし、この訓練パラダイムに固有の臨界ジレンマは、異なるルーリック次元に沿って不均衡な報酬分極である。
このボトルネックの下では、たとえLLMが訓練後に比較的高い報酬を得られるとしても、特定の次元において深刻な欠陥を示し、ユーザー体験が直接劣化する可能性がある。
この問題に対処するために,古風な報酬に基づく強化学習のトレーニングを自動でバランスさせる新しい目的であるFocal Rewardを提案する。
具体的には,まず逆報酬予測機構を利用して,各基準値の飽和度を推定し,報奨方向のキャリブレーションの基礎となる。
そして、各基準に対して自動再重み付け係数で最終目的を設計し、粒度バランスを実現する。
3つのモデルスケールと6つのベンチマークによる大規模な実験により、我々のFocal Reward法は18のモデルベンチマークの比較において最強の静的アグリゲーションベースラインを上回ります。
ロールアウト, 機構, アブレーション分析により, 改善の余地がまだ残っているルーリックに対して, オンライン, 飽和を意識した再配置によって, これらの利益がもたらされることが示されている。
関連論文リスト
- Alternating Reinforcement Learning with Contextual Rubric Rewards [2.1172256884504588]
Reinforcement Learning with Rewards (RLRR)は、従来の強化学習を人間のフィードバックから拡張するフレームワークである。
RLRRの既存のアプローチは、固定重み付きスカラー報酬に線形に圧縮されたベクトル報酬に限られる。
本研究は,報酬アグリゲーションの限界を克服するために,報酬付き強化学習(ARL-RR)を提案する。
論文 参考訳(メタデータ) (2026-03-04T04:18:39Z) - Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - Teaching Large Reasoning Models Effective Reflection [62.73646680747003]
大規模推論モデル(LRM)は、最近、複雑な推論タスクにおいて印象的なパフォーマンスを示している。
しかし、すべてのリフレクションが有益であるとは限らない。
まず,自己批判のみを用いてモデルの反射的推論能力を高める訓練フレームワークである自己批判ファインチューニング(SCFT)を提案する。
論文 参考訳(メタデータ) (2026-01-19T04:51:53Z) - OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - Conditional Advantage Estimation for Reinforcement Learning in Large Reasoning Models [50.84995206660551]
本研究では,条件付きアドバンテージ・エスティマティオン(CANON)を導入し,その方向を推定せずに目標距離の影響を増幅する。
エントロピーに基づくCANONは、数学推論と高複雑性論理タスクの両方において、従来手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-09-28T16:33:07Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。