論文の概要: Behavior Alignment via Reward Function Optimization
- arxiv url: http://arxiv.org/abs/2310.19007v1
- Date: Sun, 29 Oct 2023 13:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 15:05:10.037321
- Title: Behavior Alignment via Reward Function Optimization
- Title(参考訳): 逆関数最適化による行動アライメント
- Authors: Dhawal Gupta, Yash Chandak, Scott M. Jordan, Philip S. Thomas, Bruno
Castro da Silva
- Abstract要約: 設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
- 参考スコア(独自算出の注目度): 23.92721220310242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing reward functions for efficiently guiding reinforcement learning
(RL) agents toward specific behaviors is a complex task. This is challenging
since it requires the identification of reward structures that are not sparse
and that avoid inadvertently inducing undesirable behaviors. Naively modifying
the reward structure to offer denser and more frequent feedback can lead to
unintended outcomes and promote behaviors that are not aligned with the
designer's intended goal. Although potential-based reward shaping is often
suggested as a remedy, we systematically investigate settings where deploying
it often significantly impairs performance. To address these issues, we
introduce a new framework that uses a bi-level objective to learn
\emph{behavior alignment reward functions}. These functions integrate auxiliary
rewards reflecting a designer's heuristics and domain knowledge with the
environment's primary rewards. Our approach automatically determines the most
effective way to blend these types of feedback, thereby enhancing robustness
against heuristic reward misspecification. Remarkably, it can also adapt an
agent's policy optimization process to mitigate suboptimalities resulting from
limitations and biases inherent in the underlying RL algorithms. We evaluate
our method's efficacy on a diverse set of tasks, from small-scale experiments
to high-dimensional control challenges. We investigate heuristic auxiliary
rewards of varying quality -- some of which are beneficial and others
detrimental to the learning process. Our results show that our framework offers
a robust and principled way to integrate designer-specified heuristics. It not
only addresses key shortcomings of existing approaches but also consistently
leads to high-performing solutions, even when given misaligned or
poorly-specified auxiliary reward functions.
- Abstract(参考訳): 特定の行動に対する強化学習(RL)エージェントを効率的に導くための報酬関数の設計は複雑な作業である。
スパースのない報酬構造を識別し、望ましくない振る舞いを不注意に誘発することを避ける必要があるため、これは困難である。
より密集した頻繁なフィードバックを提供するために報酬構造を内在的に修正することは意図しない結果をもたらし、設計者の意図した目標に合わない振る舞いを促進する。
潜在的な報酬形成は、しばしば治療として提案されるが、我々は、そのデプロイがパフォーマンスを著しく損なうような設定を体系的に調査する。
これらの問題に対処するために,両レベルの目的を用いて,emph{behavior alignment reward function} を学習する新しいフレームワークを導入する。
これらの機能は、デザイナーのヒューリスティックとドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する。
提案手法は,これらのフィードバックをブレンドする最も効果的な方法を自動的に決定し,ヒューリスティック報酬の誤特定に対する堅牢性を高める。
注目すべきは、エージェントのポリシー最適化プロセスに適応して、基礎となるRLアルゴリズムに固有の制限とバイアスから生じる亜最適性を緩和することもできることである。
本手法は, 小規模実験から高次元制御課題まで, 様々な課題に対して有効性を評価する。
様々な品質のヒューリスティック補助報酬について検討し、その一部は有益であり、他は学習プロセスに有害である。
我々のフレームワークは,設計者が特定したヒューリスティックスを統合するための堅牢で原則的な方法を提供する。
既存のアプローチの重要な欠点に対処するだけでなく、不一致や不特定な補助報酬関数が与えられた場合でも、一貫して高いパフォーマンスのソリューションに繋がる。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Iterative Reward Shaping using Human Feedback for Correcting Reward
Misspecification [15.453123084827089]
ITERSは、人間のフィードバックを用いて、不特定報酬関数の効果を緩和する反復的な報酬形成手法である。
ITERSを3つの環境で評価し,不特定報酬関数の修正に成功していることを示す。
論文 参考訳(メタデータ) (2023-08-30T11:45:40Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Admissible Policy Teaching through Reward Design [32.39785256112934]
我々は、強化学習エージェントに報酬設計戦略を奨励し、許容可能な政策の集合から政策を採用するための報酬設計戦略について研究する。
報酬設計者の目標は、新たな報酬関数の下でのほぼ最適な決定的ポリシーが許容可能であることを保証しつつ、その基礎となる報酬関数をコスト効率良く修正することである。
論文 参考訳(メタデータ) (2022-01-06T18:49:57Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。