Fugu-MT 論文翻訳(概要): Programmatic Reward Design by Example

論文の概要: Programmatic Reward Design by Example

arxiv url: http://arxiv.org/abs/2112.08438v1
Date: Tue, 14 Dec 2021 05:46:24 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-18 13:12:31.196038
Title: Programmatic Reward Design by Example
Title（参考訳）: 実例によるプログラム・リワード設計
Authors: Weichao Zhou, Wenchao Li
Abstract要約: 不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。本稿では,強化学習環境における報酬関数の特定にプログラムを用いることで,テキストプログラミングによる報酬設計を提案する。本論文の主な貢献は,有能なデモンストレーションから最適なプログラム報酬関数を推定できる確率的フレームワークである。
参考スコア（独自算出の注目度）: 7.188571996124112
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward design is a fundamental problem in reinforcement learning (RL). A misspecified or poorly designed reward can result in low sample efficiency and undesired behaviors. In this paper, we propose the idea of \textit{programmatic reward design}, i.e. using programs to specify the reward functions in RL environments. Programs allow human engineers to express sub-goals and complex task scenarios in a structured and interpretable way. The challenge of programmatic reward design, however, is that while humans can provide the high-level structures, properly setting the low-level details, such as the right amount of reward for a specific sub-task, remains difficult. A major contribution of this paper is a probabilistic framework that can infer the best candidate programmatic reward function from expert demonstrations. Inspired by recent generative-adversarial approaches, our framework {searches for the most likely programmatic reward function under which the optimally generated trajectories cannot be differentiated from the demonstrated trajectories}. Experimental results show that programmatic reward functions learned using this framework can significantly outperform those learned using existing reward learning algorithms, and enable RL agents to achieve state-of-the-art performance on highly complex tasks.
Abstract（参考訳）: リワード設計は強化学習(RL)の基本的な問題である。不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。本稿では,RL環境における報酬関数の指定にプログラムを使用するという,‘textit{ Programmatic reward design}’の概念を提案する。プログラムによって、人間のエンジニアは構造化され解釈可能な方法で、サブゴールと複雑なタスクシナリオを表現できる。しかし、プログラム的な報酬設計の課題は、人間が高いレベルの構造を提供できる一方で、特定のサブタスクに対する適切な報酬量などの低レベルの詳細を適切に設定することは困難である。この論文の主な貢献は、専門家のデモンストレーションから最高のプログラム的報酬関数を推測できる確率的枠組みである。近年の帰納的アプローチにインスパイアされた我々の枠組みは、最適に生成された軌跡と示される軌跡とを区別できない最もプログラム的な報奨関数の探索である。実験の結果,このフレームワークを用いて学習したプログラム的報酬関数は,既存の報酬学習アルゴリズムで学習した報酬関数を著しく上回ることができ,rlエージェントは高度に複雑なタスクで最先端のパフォーマンスを達成できることがわかった。

関連論文リスト

Adaptive Reward Design for Reinforcement Learning [2.3031174164121127]
本稿では,RLエージェントをインセンティブとして,論理式で指定されたタスクを可能な限り完了させる報奨関数群を提案する。学習過程において報酬関数を動的に更新する適応型報酬生成手法を開発した。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文参考訳（メタデータ） (2024-10-22T08:07:44Z)
Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文参考訳（メタデータ） (2024-01-08T12:39:25Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文参考訳（メタデータ） (2023-01-26T01:06:46Z)
Unpacking Reward Shaping: Understanding the Benefits of Reward Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文参考訳（メタデータ） (2022-10-18T04:21:25Z)
Automatic Reward Design via Learning Motivation-Consistent Intrinsic Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文参考訳（メタデータ） (2022-07-29T14:52:02Z)
A Hierarchical Bayesian Approach to Inverse Reinforcement Learning with Symbolic Reward Machines [7.661766773170363]
不特定報酬は、サンプル効率を低下させ、強化学習問題において望ましくない振る舞いを誘発することができる。本稿では,報酬信号を指定する際に,高いレベルのタスク知識を取り入れたシンボル型報酬機を提案する。
論文参考訳（メタデータ） (2022-04-20T20:22:00Z)
Demonstration-efficient Inverse Reinforcement Learning in Procedurally Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文参考訳（メタデータ） (2020-12-04T11:18:02Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)
Reward Machines: Exploiting Reward Function Structure in Reinforcement Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文参考訳（メタデータ） (2020-10-06T00:10:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。