論文の概要: Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
- arxiv url: http://arxiv.org/abs/2510.07242v1
- Date: Wed, 08 Oct 2025 17:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.653534
- Title: Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense
- Title(参考訳): ハイブリッド強化: Reward がスパースなら、Dense の方が良い
- Authors: Leitian Tao, Ilia Kulikov, Swarnadeep Saha, Tianlu Wang, Jing Xu, Yixuan Li, Jason E Weston, Ping Yu,
- Abstract要約: HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
- 参考スコア(独自算出の注目度): 45.06647045018973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training for reasoning of large language models (LLMs) increasingly relies on verifiable rewards: deterministic checkers that provide 0-1 correctness signals. While reliable, such binary feedback is brittle--many tasks admit partially correct or alternative answers that verifiers under-credit, and the resulting all-or-nothing supervision limits learning. Reward models offer richer, continuous feedback, which can serve as a complementary supervisory signal to verifiers. We introduce HERO (Hybrid Ensemble Reward Optimization), a reinforcement learning framework that integrates verifier signals with reward-model scores in a structured way. HERO employs stratified normalization to bound reward-model scores within verifier-defined groups, preserving correctness while refining quality distinctions, and variance-aware weighting to emphasize challenging prompts where dense signals matter most. Across diverse mathematical reasoning benchmarks, HERO consistently outperforms RM-only and verifier-only baselines, with strong gains on both verifiable and hard-to-verify tasks. Our results show that hybrid reward design retains the stability of verifiers while leveraging the nuance of reward models to advance reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論のための後トレーニングは、検証可能な報酬(0-1正当性信号を提供する決定論的チェッカー)にますます依存している。
信頼性はあるが、そのような二分的フィードバックは不安定である。多くのタスクは、検証者が過度に検証する部分的正解または代替的な回答を認め、結果として得られるオール・オア・ナッシングの監督は学習を制限する。
リワードモデルはよりリッチで継続的なフィードバックを提供し、検証者への補完的な監視信号として機能する。
HERO(Hybrid Ensemble Reward Optimization, Hybrid Ensemble Reward Optimization)は、検証器信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROは、検証器定義されたグループ内での報酬モデルスコアの有界化、品質の区別を洗練しながら正当性を保つこと、および高密度信号が最も重要となる挑戦的プロンプトを強調する分散重み付けに階層化された正規化を用いる。
様々な数学的推論のベンチマークにおいて、HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
この結果から,ハイブリッド報酬設計は検証者の安定性を保ちつつ,報酬モデルのニュアンスを活用して推理を推し進めることが示唆された。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains [19.579511315215424]
大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
論文 参考訳(メタデータ) (2025-07-14T03:45:24Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。