論文の概要: Bayesian Robust Optimization for Imitation Learning
- arxiv url: http://arxiv.org/abs/2007.12315v4
- Date: Fri, 1 Mar 2024 04:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:27:33.210821
- Title: Bayesian Robust Optimization for Imitation Learning
- Title(参考訳): 模倣学習のためのベイズロバスト最適化
- Authors: Daniel S. Brown, Scott Niekum, Marek Petrik
- Abstract要約: 逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
- 参考スコア(独自算出の注目度): 34.40385583372232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the main challenges in imitation learning is determining what action
an agent should take when outside the state distribution of the demonstrations.
Inverse reinforcement learning (IRL) can enable generalization to new states by
learning a parameterized reward function, but these approaches still face
uncertainty over the true reward function and corresponding optimal policy.
Existing safe imitation learning approaches based on IRL deal with this
uncertainty using a maxmin framework that optimizes a policy under the
assumption of an adversarial reward function, whereas risk-neutral IRL
approaches either optimize a policy for the mean or MAP reward function. While
completely ignoring risk can lead to overly aggressive and unsafe policies,
optimizing in a fully adversarial sense is also problematic as it can lead to
overly conservative policies that perform poorly in practice. To provide a
bridge between these two extremes, we propose Bayesian Robust Optimization for
Imitation Learning (BROIL). BROIL leverages Bayesian reward function inference
and a user specific risk tolerance to efficiently optimize a robust policy that
balances expected return and conditional value at risk. Our empirical results
show that BROIL provides a natural way to interpolate between return-maximizing
and risk-minimizing behaviors and outperforms existing risk-sensitive and
risk-neutral inverse reinforcement learning algorithms. Code is available at
https://github.com/dsbrown1331/broil.
- Abstract(参考訳): 模倣学習における主な課題の1つは、エージェントがデモの状態分布の外側でどのようなアクションをとるべきかを決定することである。
逆強化学習(IRL)は、パラメータ化された報酬関数を学習することで新しい状態への一般化を可能にするが、これらのアプローチは真の報酬関数と対応する最適ポリシーに対する不確実性に直面している。
irlに基づく既存の安全模倣学習アプローチは、敵報酬関数の仮定の下でポリシーを最適化するmaxminフレームワークを使用してこの不確実性に対処するが、リスク中立のirlアプローチは平均に対するポリシーを最適化するか、マップ報酬関数を最適化するかのいずれかである。
リスクを完全に無視することは過度に攻撃的かつ安全でない政策につながるが、完全に敵対的な意味での最適化もまた問題となる。
本稿では,この2つの極端間の橋渡しを行うため,BROIL(Bayesian Robust Optimization for Imitation Learning)を提案する。
BROILはベイジアン報酬関数推論とユーザ固有のリスクトレランスを活用して、期待されるリターンとリスク時の条件値のバランスをとる堅牢なポリシを効率的に最適化する。
実験の結果,ブロイユは回帰最大化とリスク最小化の動作を補間し,既存のリスクに敏感でリスク中立な逆強化学習アルゴリズムよりも優れていることがわかった。
コードはhttps://github.com/dsbrown1331/broilで入手できる。
関連論文リスト
- Proximal Ranking Policy Optimization for Practical Safety in Counterfactual Learning to Rank [64.44255178199846]
本稿では,ユーザ行動に関する仮定を伴わずにデプロイの安全性を提供する,PRPO (proximal ranking Policy Optimization) という新しいアプローチを提案する。
PRPOは、安全なランキングモデルとは相容れないランキング行動を学ぶためのインセンティブを取り除きます。
実験の結果,PRPOは既存の安全逆性評価手法よりも高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2024-09-15T22:22:27Z) - Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - A Risk-Sensitive Approach to Policy Optimization [21.684251937825234]
標準深層強化学習(DRL)は、政策の定式化における収集経験を均等に考慮し、期待される報酬を最大化することを目的としている。
そこで本研究では,フルエピソード報酬の分布の累積分布関数 (CDF) で規定されるリスク感性目標を最適化する,より直接的なアプローチを提案する。
エージェントの動作が不十分なシナリオを強調する中程度の「悲観的」リスクプロファイルの使用が,探索の強化と,障害への継続的な対処に繋がることを示す。
論文 参考訳(メタデータ) (2022-08-19T00:55:05Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。