論文の概要: Going Beyond Heuristics by Imposing Policy Improvement as a Constraint
- arxiv url: http://arxiv.org/abs/2507.05328v1
- Date: Mon, 07 Jul 2025 17:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.273554
- Title: Going Beyond Heuristics by Imposing Policy Improvement as a Constraint
- Title(参考訳): 政策改善を制約としてヒューリスティックスを超えていく
- Authors: Chi-Chang Lee, Zhang-Wei Hong, Pulkit Agrawal,
- Abstract要約: Heuristic Enhanced Policy Optimizationは、強化学習における報酬ハッキングを活用するためのプラグアンドプレイ方式である。
HEPOは報酬ハッキングを効果的に活用し、報酬ハッキングを緩和するための先行手法の落とし穴を回避していることを示す。
さらに驚くべきことに、HEPOは、報酬が熟練していない人間によって適切に設計され、設計されていなくても、ポリシーの最適化が優れたパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 27.085318050269965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many reinforcement learning (RL) applications, augmenting the task rewards with heuristic rewards that encode human priors about how a task should be solved is crucial for achieving desirable performance. However, because such heuristics are usually not optimal, much human effort and computational resources are wasted in carefully balancing tasks and heuristic rewards. Theoretically rigorous ways of incorporating heuristics rely on the idea of \textit{policy invariance}, which guarantees that the performance of a policy obtained by maximizing heuristic rewards is the same as the optimal policy with respect to the task reward. However, in practice, policy invariance doesn't result in policy improvement, and such methods are known to empirically perform poorly. We propose a new paradigm to mitigate reward hacking and effectively use heuristics based on the practical goal of maximizing policy improvement instead of policy improvement. Our framework, Heuristic Enhanced Policy Optimization (HEPO), effectively leverages heuristics while avoiding the pitfall of prior methods for mitigating reward hacking. HEPO achieves superior performance on standard benchmarks with well-engineered reward functions. More surprisingly, HEPO allows policy optimization to achieve good performance even when heuristics are not well-engineered and designed by non-expert humans, showcasing HEPO's ability to reduce human effort in reward design. % HEPO is a plug-and-play optimization method for leveraging heuristics in reinforcement learning. Code is available at https://github.com/Improbable-AI/hepo.
- Abstract(参考訳): 多くの強化学習(RL)アプリケーションでは、タスクがどのように解決されるべきかを人間にエンコードするヒューリスティックな報酬でタスク報酬を増大させることが、望ましいパフォーマンスを達成するために不可欠である。
しかし、そのようなヒューリスティックスは通常最適ではないため、多くの人的努力と計算資源は、タスクとヒューリスティック報酬を慎重にバランスをとるために無駄にされる。
理論上、ヒューリスティックスを組み込む厳密な方法は、ヒューリスティック報酬を最大化することによって得られるポリシーのパフォーマンスがタスク報酬に関する最適ポリシーと同じであることを保証する「textit{policy invariance}」という考え方に依存している。
しかし、実際には、政策の不分散は政策改善をもたらすものではなく、そのような手法は実証的には不十分であることが知られている。
本稿では、報酬ハッキングを緩和し、政策改善ではなく政策改善を最大化する実践的な目標に基づいて、ヒューリスティックスを効果的に活用する新しいパラダイムを提案する。
我々のフレームワークであるHeuristic Enhanced Policy Optimization (HEPO)は、報酬ハッキングを緩和する以前の手法の落とし穴を回避しつつ、ヒューリスティックスを効果的に活用する。
HEPOは、よくエンジニアリングされた報酬関数を持つ標準ベンチマークで優れたパフォーマンスを達成する。
より驚くべきことに、HEPOはヒューリスティックが熟練していない人間によって設計されていなくても、政策最適化が優れた性能を達成することを可能にし、報酬設計における人的労力を減らす能力を示している。
% HEPOは強化学習におけるヒューリスティックスを活用するためのプラグアンドプレイ最適化手法である。
コードはhttps://github.com/Improbable-AI/hepo.comから入手できる。
関連論文リスト
- On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Self-Improving Robust Preference Optimization [22.493029742076605]
オンラインおよびオフラインのRLHFメソッドは、AIと人間の好みを合わせることに成功している。
本稿では,実用的で数学的に規定されたオフラインRLHFフレームワークである自己改善ロバスト推論最適化(SRPO)を提案する。
SRPO は,大規模な標準教師あり学習技術を用いて効率よく最適化できることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:53:25Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Admissible Policy Teaching through Reward Design [32.39785256112934]
我々は、強化学習エージェントに報酬設計戦略を奨励し、許容可能な政策の集合から政策を採用するための報酬設計戦略について研究する。
報酬設計者の目標は、新たな報酬関数の下でのほぼ最適な決定的ポリシーが許容可能であることを保証しつつ、その基礎となる報酬関数をコスト効率良く修正することである。
論文 参考訳(メタデータ) (2022-01-06T18:49:57Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。