論文の概要: Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity
- arxiv url: http://arxiv.org/abs/2210.09579v1
- Date: Tue, 18 Oct 2022 04:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:39:26.477102
- Title: Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity
- Title(参考訳): unpacking reward shaping: サンプル複雑性に対する報酬エンジニアリングのメリットを理解する
- Authors: Abhishek Gupta, Aldo Pacchiano, Yuexiang Zhai, Sham M. Kakade, Sergey
Levine
- Abstract要約: 強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
- 参考スコア(独自算出の注目度): 114.88145406445483
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning provides an automated framework for learning behaviors
from high-level reward specifications, but in practice the choice of reward
function can be crucial for good results -- while in principle the reward only
needs to specify what the task is, in reality practitioners often need to
design more detailed rewards that provide the agent with some hints about how
the task should be completed. The idea of this type of ``reward-shaping'' has
been often discussed in the literature, and is often a critical part of
practical applications, but there is relatively little formal characterization
of how the choice of reward shaping can yield benefits in sample complexity. In
this work, we build on the framework of novelty-based exploration to provide a
simple scheme for incorporating shaped rewards into RL along with an analysis
tool to show that particular choices of reward shaping provably improve sample
efficiency. We characterize the class of problems where these gains are
expected to be significant and show how this can be connected to practical
algorithms in the literature. We confirm that these results hold in practice in
an experimental evaluation, providing an insight into the mechanisms through
which reward shaping can significantly improve the complexity of reinforcement
learning while retaining asymptotic performance.
- Abstract(参考訳): 強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供するが、実際には、報酬関数の選択は良い結果に不可欠である。
このタイプの'reward-shapeping'の考え方は文献でしばしば議論され、しばしば実用的応用において重要な部分となっているが、報酬シェーピングの選択がサンプルの複雑さにどのように利益をもたらすかについての形式的な特徴は比較的少ない。
本研究では,新奇性に基づく探索の枠組みを構築し,RLに形状の報酬を組み込むための簡単なスキームと,特定の報酬形成の選択が試料効率を向上することを示す分析ツールを提供する。
我々は,これらの成果が重要と期待される問題のクラスを特徴付け,文献の実用的アルゴリズムとどのように結びつくかを示す。
これらの結果が実験評価において実際に有効であることを確認し,漸近的性能を維持しつつ強化学習の複雑さを著しく改善するメカニズムについて考察した。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。
RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文 参考訳(メタデータ) (2024-05-29T22:23:20Z) - Informativeness of Reward Functions in Reinforcement Learning [34.40155383189179]
本稿では,情報的報酬関数を設計することで,エージェントの収束を高速化する問題について検討する。
現存する作品では、いくつかの異なる報酬デザインの定式化が検討されている。
本稿では,エージェントの現在の方針に適応し,特定の構造制約の下で最適化できる報奨情報量基準を提案する。
論文 参考訳(メタデータ) (2024-02-10T18:36:42Z) - Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。
以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。
我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文 参考訳(メタデータ) (2024-01-08T12:39:25Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Programmatic Reward Design by Example [7.188571996124112]
不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。
本稿では,強化学習環境における報酬関数の特定にプログラムを用いることで,テキストプログラミングによる報酬設計を提案する。
本論文の主な貢献は,有能なデモンストレーションから最適なプログラム報酬関数を推定できる確率的フレームワークである。
論文 参考訳(メタデータ) (2021-12-14T05:46:24Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。