論文の概要: Reward Hacking Mitigation using Verifiable Composite Rewards
- arxiv url: http://arxiv.org/abs/2509.15557v1
- Date: Fri, 19 Sep 2025 03:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.980422
- Title: Reward Hacking Mitigation using Verifiable Composite Rewards
- Title(参考訳): 検証可能な複合リワードを用いたリワードハック対策
- Authors: Mirza Farhan Bin Tarek, Rahmatollah Beheshti,
- Abstract要約: Reinforcement Learning from Verifiable Rewards (RLVR)は、最近、大規模言語モデル(LLM)が直接の監督なしに独自の推論を開発することができることを示した。
この研究は、この行動の2つの主要な形態に対処する。
報酬機構を利用するために、事前の推論なしで最終回答を提供する、すなわち、標準でない推論フォーマットを使用する。
- 参考スコア(独自算出の注目度): 5.061948558533868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has recently shown that large language models (LLMs) can develop their own reasoning without direct supervision. However, applications in the medical domain, specifically for question answering, are susceptible to significant reward hacking during the reasoning phase. Our work addresses two primary forms of this behavior: i) providing a final answer without preceding reasoning, and ii) employing non-standard reasoning formats to exploit the reward mechanism. To mitigate these, we introduce a composite reward function with specific penalties for these behaviors. Our experiments show that extending RLVR with our proposed reward model leads to better-formatted reasoning with less reward hacking and good accuracy compared to the baselines. This approach marks a step toward reducing reward hacking and enhancing the reliability of models utilizing RLVR.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR)は、最近、大規模言語モデル(LLM)が直接の監督なしに独自の推論を開発することができることを示した。
しかし、特に質問応答のための医療分野の応用は、推論フェーズにおける大きな報酬ハッキングの影響を受けやすい。
私たちの仕事は、この行動の2つの主要な形態に対処しています。
一 先述の理由なしに最終回答をすること
二 報酬機構を利用するために非標準推論形式を用いること。
これらを緩和するために、これらの行動に対して特定の罰則を持つ複合報酬関数を導入する。
提案した報奨モデルによるRLVRの拡張は,報奨ハッキングを少なくし,ベースラインと比較して精度良く,より整形された推論につながることを示す。
このアプローチは、RLVRを利用した報酬ハッキングの削減とモデルの信頼性向上に向けたステップである。
関連論文リスト
- Causal Reward Adjustment: Mitigating Reward Hacking in External Reasoning via Backdoor Correction [5.518813485456855]
外部推論システムは、言語モデルとプロセス報酬モデル(PRM)を組み合わせて、複雑なタスクのための高品質な推論パスを選択する。
これらのシステムはハッキングに報いる傾向があり、高いスコアが与えられるが、論理的に正しくないパスは、PRMによって高いスコアが割り当てられ、誤った答えが導かれる。
推論経路の真の報酬を推定することにより、報酬ハッキングを緩和する手法であるCausal Reward Adjustment (CRA)を提案する。
論文 参考訳(メタデータ) (2025-08-06T08:48:55Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [32.99709073885827]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力向上のための,有望なパラダイムとして登場した。
しかしながら、RLVRで調整されたモデルは、ソリューションフィリングのための$Pass@K$メトリックでベースモデルよりもパフォーマンスが低いことが多い。
より正確な評価基準である$CoT$-$Pass@K$を導入する。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Spurious Rewards: Rethinking Training Signals in RLVR [130.3484456088909]
検証可能な報酬(RLVR)を用いた強化学習は,特定のモデルにおいて強い数学的推論を導出できることを示す。
例えば、RLVRはQwen2.5-Math-7BのMATH-500の性能を21.4%向上させた。
コード推論 -- 実際のコード実行なしにコードで考える -- は、RLVR以降、はるかに頻繁になる、独特なQwen2.5-Mathの振る舞いである。
論文 参考訳(メタデータ) (2025-06-12T17:49:55Z) - Reward Reasoning Model [104.39256985858428]
Reward Reasoning Models (RRM) は、最終的な報酬を生成する前に意図的に推論プロセスを実行するように設計されている。
自己発展型報酬推論能力を育成する強化学習フレームワークを実装した。
特に、RTMはテスト時間計算を適応的に利用して報酬の精度をさらに向上させることができる。
論文 参考訳(メタデータ) (2025-05-20T17:58:03Z) - Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning [25.817231106021552]
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)のテストタイムスケーリングにおいて、困難な推論タスクにおいて有効であることが証明されている。
しかしながら、PRMによる報酬ハッキング問題は、強化微調整における彼らの成功を制限している。
本稿では,PRMによる報酬ハッキングの主な原因を,強化学習における正準和形信用代入として同定する。
論文 参考訳(メタデータ) (2025-04-21T17:59:02Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。