論文の概要: Programmatic Reward Design by Example
- arxiv url: http://arxiv.org/abs/2112.08438v1
- Date: Tue, 14 Dec 2021 05:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 13:12:31.196038
- Title: Programmatic Reward Design by Example
- Title(参考訳): 実例によるプログラム・リワード設計
- Authors: Weichao Zhou, Wenchao Li
- Abstract要約: 不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。
本稿では,強化学習環境における報酬関数の特定にプログラムを用いることで,テキストプログラミングによる報酬設計を提案する。
本論文の主な貢献は,有能なデモンストレーションから最適なプログラム報酬関数を推定できる確率的フレームワークである。
- 参考スコア(独自算出の注目度): 7.188571996124112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward design is a fundamental problem in reinforcement learning (RL). A
misspecified or poorly designed reward can result in low sample efficiency and
undesired behaviors. In this paper, we propose the idea of \textit{programmatic
reward design}, i.e. using programs to specify the reward functions in RL
environments. Programs allow human engineers to express sub-goals and complex
task scenarios in a structured and interpretable way. The challenge of
programmatic reward design, however, is that while humans can provide the
high-level structures, properly setting the low-level details, such as the
right amount of reward for a specific sub-task, remains difficult. A major
contribution of this paper is a probabilistic framework that can infer the best
candidate programmatic reward function from expert demonstrations. Inspired by
recent generative-adversarial approaches, our framework {searches for the most
likely programmatic reward function under which the optimally generated
trajectories cannot be differentiated from the demonstrated trajectories}.
Experimental results show that programmatic reward functions learned using this
framework can significantly outperform those learned using existing reward
learning algorithms, and enable RL agents to achieve state-of-the-art
performance on highly complex tasks.
- Abstract(参考訳): リワード設計は強化学習(RL)の基本的な問題である。
不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。
本稿では,RL環境における報酬関数の指定にプログラムを使用するという,‘textit{ Programmatic reward design}’の概念を提案する。
プログラムによって、人間のエンジニアは構造化され解釈可能な方法で、サブゴールと複雑なタスクシナリオを表現できる。
しかし、プログラム的な報酬設計の課題は、人間が高いレベルの構造を提供できる一方で、特定のサブタスクに対する適切な報酬量などの低レベルの詳細を適切に設定することは困難である。
この論文の主な貢献は、専門家のデモンストレーションから最高のプログラム的報酬関数を推測できる確率的枠組みである。
近年の帰納的アプローチにインスパイアされた我々の枠組みは、最適に生成された軌跡と示される軌跡とを区別できない最もプログラム的な報奨関数の探索である。
実験の結果,このフレームワークを用いて学習したプログラム的報酬関数は,既存の報酬学習アルゴリズムで学習した報酬関数を著しく上回ることができ,rlエージェントは高度に複雑なタスクで最先端のパフォーマンスを達成できることがわかった。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with
Symbolic Reward Machines [7.661766773170363]
不特定報酬は、サンプル効率を低下させ、強化学習問題において望ましくない振る舞いを誘発することができる。
本稿では,報酬信号を指定する際に,高いレベルのタスク知識を取り入れたシンボル型報酬機を提案する。
論文 参考訳(メタデータ) (2022-04-20T20:22:00Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。