論文の概要: Policy Gradient Bayesian Robust Optimization for Imitation Learning
- arxiv url: http://arxiv.org/abs/2106.06499v1
- Date: Fri, 11 Jun 2021 16:49:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:31:42.805484
- Title: Policy Gradient Bayesian Robust Optimization for Imitation Learning
- Title(参考訳): イミテーション学習のためのポリシー勾配ベイズロバスト最適化
- Authors: Zaynah Javed, Daniel S. Brown, Satvik Sharma, Jerry Zhu, Ashwin
Balakrishna, Marek Petrik, Anca D. Dragan, Ken Goldberg
- Abstract要約: 我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 49.881386773269746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The difficulty in specifying rewards for many real-world problems has led to
an increased focus on learning rewards from human feedback, such as
demonstrations. However, there are often many different reward functions that
explain the human feedback, leaving agents with uncertainty over what the true
reward function is. While most policy optimization approaches handle this
uncertainty by optimizing for expected performance, many applications demand
risk-averse behavior. We derive a novel policy gradient-style robust
optimization approach, PG-BROIL, that optimizes a soft-robust objective that
balances expected performance and risk. To the best of our knowledge, PG-BROIL
is the first policy optimization algorithm robust to a distribution of reward
hypotheses which can scale to continuous MDPs. Results suggest that PG-BROIL
can produce a family of behaviors ranging from risk-neutral to risk-averse and
outperforms state-of-the-art imitation learning algorithms when learning from
ambiguous demonstrations by hedging against uncertainty, rather than seeking to
uniquely identify the demonstrator's reward function.
- Abstract(参考訳): 多くの実世界の問題に対する報酬を特定することの難しさは、デモのような人間のフィードバックから報酬を学ぶことに集中している。
しかし、人間のフィードバックを説明する多くの異なる報酬関数があり、真の報酬関数が何であるかに不確実性がある。
ほとんどのポリシー最適化アプローチは、期待されるパフォーマンスのために最適化することでこの不確実性を処理するが、多くのアプリケーションは、リスク回避の振る舞いを要求する。
我々は,期待性能とリスクのバランスをとるソフトロバスト目標を最適化する新しいポリシー勾配型ロバスト最適化手法pg-broilを導出する。
我々の知る限り、PG-BROILは、連続的なMDPにスケール可能な報酬仮説の分布に頑健な最初のポリシー最適化アルゴリズムである。
その結果,PG-BROILはリスクニュートラルからリスクアバースまで多岐にわたる行動のファミリを生み出すことができ,不確実性に対処して不明瞭な実演から学習する際の最先端の模倣学習アルゴリズムより優れていることが示唆された。
関連論文リスト
- Understanding Expertise through Demonstrations: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [56.848265937921354]
オフライン逆強化学習(英: offline inverse reinforcement learning、IRL)は、専門家エージェントからの有限個のデモンストレーションセットにおいて観測された動作を過小評価する報酬と環境力学の構造を回復することを目的としている。
本稿では,二段階最適化問題の定式化を解くための新しいアルゴリズムフレームワークを提案し,関連する報酬推定器の性能の統計的および計算的保証を提供する。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - A Risk-Sensitive Approach to Policy Optimization [30.221547507877546]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - On the Convergence and Optimality of Policy Gradient for Markov Coherent
Risk [32.97618081988295]
本稿では,学習方針の準最適性に厳密な上限を与え,その目的の非線形性とリスク回避の度合いへの依存性を特徴付ける。
従来の制限を克服するために, 状態分布の重み付けを用いたPGの実践的実装を提案する。
論文 参考訳(メタデータ) (2021-03-04T04:11:09Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [91.44514047017954]
平均報酬設定下でのリスクに敏感な深層強化学習を,分散リスク基準を用いて初めて検討する。
ポリシ,ラグランジュ乗算器,フェンチェル双変数を反復的かつ効率的に更新するアクタークリティカルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Bounded Risk-Sensitive Markov Games: Forward Policy Design and Inverse
Reward Learning with Iterative Reasoning and Cumulative Prospect Theory [33.57592649823294]
本稿では,リスクに敏感なマルコフゲーム(BRSMG)とその逆報酬学習問題について検討する。
我々は,BRSMGにおいて,人間は知能を制限し,リスクに敏感なユーティリティを最大化することを示した。
その結果, エージェントの行動は, リスク・リバース特性とリスク・サーキング特性の両方を示すことがわかった。
論文 参考訳(メタデータ) (2020-09-03T07:32:32Z) - Bayesian Robust Optimization for Imitation Learning [43.125855759827814]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。