論文の概要: Repairing Reward Functions with Human Feedback to Mitigate Reward Hacking
- arxiv url: http://arxiv.org/abs/2510.13036v1
- Date: Tue, 14 Oct 2025 23:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.443073
- Title: Repairing Reward Functions with Human Feedback to Mitigate Reward Hacking
- Title(参考訳): ヒューマンフィードバックによるリワード機能修復によるリワードハックの軽減
- Authors: Stephane Hatgis-Kessell, Logan Mondal Bhamidipaty, Emma Brunskill,
- Abstract要約: そこで本稿では,人為的に規定された代行報酬関数を,優先事項から付加的かつ遷移依存的な補正項を学習することで修復する自動フレームワークを提案する。
PBRRは、好みから報酬関数をスクラッチから学習するベースラインを一貫して上回り、他のアプローチを使用してプロキシ報酬関数を変更する。
- 参考スコア(独自算出の注目度): 13.417125511014447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-designed reward functions for reinforcement learning (RL) agents are frequently misaligned with the humans' true, unobservable objectives, and thus act only as proxies. Optimizing for a misspecified proxy reward function often induces reward hacking, resulting in a policy misaligned with the human's true objectives. An alternative is to perform RL from human feedback, which involves learning a reward function from scratch by collecting human preferences over pairs of trajectories. However, building such datasets is costly. To address the limitations of both approaches, we propose Preference-Based Reward Repair (PBRR): an automated iterative framework that repairs a human-specified proxy reward function by learning an additive, transition-dependent correction term from preferences. A manually specified reward function can yield policies that are highly suboptimal under the ground-truth objective, yet corrections on only a few transitions may suffice to recover optimal performance. To identify and correct for those transitions, PBRR uses a targeted exploration strategy and a new preference-learning objective. We prove in tabular domains PBRR has a cumulative regret that matches, up to constants, that of prior preference-based RL methods. In addition, on a suite of reward-hacking benchmarks, PBRR consistently outperforms baselines that learn a reward function from scratch from preferences or modify the proxy reward function using other approaches, requiring substantially fewer preferences to learn high performing policies.
- Abstract(参考訳): 強化学習(RL)エージェントのための人間設計の報酬関数は、しばしば人間の真の、観察不能な目的と一致せず、プロキシとしてのみ機能する。
不正なプロキシ報酬関数の最適化は、しばしば報酬のハッキングを引き起こす。
もう一つの方法は、人間のフィードバックからRLを実行することだ。これは、一対の軌道上の人間の好みを収集することで、報酬関数をスクラッチから学習することを含む。
しかし、そのようなデータセットの構築にはコストがかかる。
双方のアプローチの限界に対処するため,提案手法は自動反復的フレームワークであるPreference-Based Reward repair (PBRR)を提案する。
手動で指定された報酬関数は、基本的目標の下で非常に最適なポリシーを与えることができるが、いくつかの遷移の修正だけが最適性能を回復するのに十分である。
PBRRはこれらの遷移を識別し、修正するために、ターゲット探索戦略と新しい嗜好学習目標を用いる。
表形式の領域において、PBRR は、事前の嗜好に基づく RL 法と一致する定数まで、累積的後悔を持つことを証明している。
さらに、PBRRは報酬ハックベンチマークのスイートにおいて、優先権から報酬関数をスクラッチから学習するベースラインや、他のアプローチによるプロキシ報酬関数の変更を一貫して上回り、高いパフォーマンスポリシーを学ぶために、極めて少ない好みを必要とする。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Hindsight PRIORs for Reward Learning from Human Preferences [3.4990427823966828]
嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。
PbRLへの現在のアプローチは、行動のどの部分が優先に最も寄与しているかを決定することに固有の信用割当問題に対処しない。
我々は、世界モデルを用いて軌道内の状態重要度を近似し、報酬を国家重要度に比例するように誘導する信用割当戦略(Hindsight PRIOR)を導入する。
論文 参考訳(メタデータ) (2024-04-12T21:59:42Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-02-03T11:39:50Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。