論文の概要: Uncertainty-Aware Reward Discounting for Mitigating Reward Hacking
- arxiv url: http://arxiv.org/abs/2604.26360v1
- Date: Wed, 29 Apr 2026 07:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.287075
- Title: Uncertainty-Aware Reward Discounting for Mitigating Reward Hacking
- Title(参考訳): 不確かさを意識したリワード・ディスカウントによるリワード・ハックの軽減
- Authors: Disha Singha,
- Abstract要約: 現実世界の目的はしばしば不確実であり、文脈に依存し、内部的に矛盾している。
このミスマッチは、報酬のハッキング、過度な最適化、過度に信頼された振る舞いなど、アライメントの失敗につながる可能性がある。
本稿では,評価の不確かさと人間の嗜好の不確実性の両方を明示的にモデル化する二元的不確実性認識報酬フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) systems typically optimize scalar reward functions that assume precise and reliable evaluation of outcomes. However, real-world objectives--especially those derived from human preferences--are often uncertain, context-dependent, and internally inconsistent. This mismatch can lead to alignment failures such as reward hacking, over-optimization, and overconfident behavior. We introduce a dual-source uncertainty-aware reward framework that explicitly models both epistemic uncertainty in value estimation and uncertainty in human preferences. Model uncertainty is captured via ensemble disagreement over value predictions, while preference uncertainty is derived from variability in reward annotations. We combine these signals through a confidence-adjusted Reliability Filter that adaptively modulates action selection, encouraging a balance between exploitation and caution. Empirical results across multiple discrete grid configurations (6x6, 8x8, 10x10) and high-dimensional continuous control environments (Hopper-v4, Walker2d-v4) demonstrate that our approach yields more stable training dynamics and reduces exploitative behaviors under reward ambiguity, achieving a 93.7% reduction in reward-hacking behavior as measured by trap visitation frequency. We demonstrate statistical significance of these improvements and robustness under up to 30% supervisory noise, albeit with a trade-off in peak observed reward compared to unconstrained baselines. By treating uncertainty as a first-class component of the reward signal, this work offers a principled approach toward more reliable and aligned reinforcement learning systems.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)システムは通常、結果の正確かつ信頼性の高い評価を前提としたスカラー報酬関数を最適化する。
しかし、現実世界の目的(特に人間の好みに由来するもの)は、しばしば不確実であり、文脈に依存し、内部的に矛盾している。
このミスマッチは、報酬のハッキング、過度な最適化、過度に信頼された振る舞いなど、アライメントの失敗につながる可能性がある。
本稿では,ヒトの嗜好における評価的不確実性と評価的不確実性の両方を明示的にモデル化する二元的不確実性認識報酬フレームワークを提案する。
モデルの不確実性は、値予測に対するアンサンブルの不一致を通じて取得され、一方、優先不確実性は報酬アノテーションにおける可変性から導かれる。
我々はこれらの信号を信頼度調整された信頼性フィルタで結合し、行動選択を適応的に調整し、搾取と注意のバランスを取る。
複数の離散格子構成 (6x6, 8x8, 10x10) と高次元連続制御環境 (Hopper-v4, Walker2d-v4) にまたがる実験結果から, 提案手法はより安定したトレーニング力学を導出し, 報酬あいまいさ下での搾取動作を低減し, トラップ訪問頻度による報酬ハック行動の93.7%低減を実現している。
これらの改善の統計的意義と、最大30%の監視ノイズ下でのロバスト性を示す。
不確実性を報奨信号の一級成分として扱うことにより、より信頼性が高く整列した強化学習システムへの原則的アプローチを提供する。
関連論文リスト
- Less Approximates More: Harmonizing Performance and Confidence Faithfulness via Hybrid Post-Training for High-Stakes Tasks [52.81286869496811]
大規模な言語モデルは、自信を持って不正確な推論が現実世界の害を引き起こすような、ハイテイクなタスクにますますデプロイされている。
内的フィードバックからの教師なし強化学習と推論・トラス誘導型推論蒸留を併用して協調的に最適化することを提案する。
PRG方式のメトリクスを用いてRDとRLIFを適応的に重み付けするハイブリッドポストトレーニングフレームワークであるHyTuningを紹介する。
論文 参考訳(メタデータ) (2026-04-09T16:50:11Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction [55.04308051033549]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)推論を向上するための主要なパラダイムとして登場した。
モデル固有の信頼性を活用して外部検証から独立したカリキュラムを構築するフレームワークであるVerifier-Independent Curriculum Reinforcement Learning (VI-CuRL)を紹介する。
論文 参考訳(メタデータ) (2026-02-13T03:40:52Z) - Uncertainty-aware Generative Recommendation [52.0751022792023]
Uncertainty-aware Generative Recommendation (UGR)は、適応最適化のための重要な信号として不確実性を利用する統一的なフレームワークである。
UGRは優れたレコメンデーション性能を得るだけでなく、トレーニングを根本的に安定化させ、標準手法でよく見られる性能劣化を防ぐ。
論文 参考訳(メタデータ) (2026-02-12T08:48:51Z) - Reinforcement Inference: Leveraging Uncertainty for Self-Correcting Language Model Reasoning [0.0]
強化推論(Reinforcement Inference)は、モデル自身の不確実性を使用して、第二の、より意図的な推論の試みを選択的に呼び出す。
12,032のMMLU-Pro質問では、DeepSeek-v3.2を使ってゼロショット設定で決定論的デコーディングを行い、Reinforcement Inferenceは精度を60.72%から84.03%に改善した。
論文 参考訳(メタデータ) (2026-02-09T11:08:24Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。