論文の概要: Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2011.08541v1
- Date: Tue, 17 Nov 2020 10:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:20:37.631701
- Title: Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization
- Title(参考訳): ベイズ最適化による逆強化学習における報酬関数の効率的な探索
- Authors: Sreejith Balakrishnan, Quoc Phong Nguyen, Bryan Kian Hsiang Low,
Harold Soh
- Abstract要約: 逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 43.51553742077343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of inverse reinforcement learning (IRL) is relevant to a variety
of tasks including value alignment and robot learning from demonstration.
Despite significant algorithmic contributions in recent years, IRL remains an
ill-posed problem at its core; multiple reward functions coincide with the
observed behavior and the actual reward function is not identifiable without
prior knowledge or supplementary information. This paper presents an IRL
framework called Bayesian optimization-IRL (BO-IRL) which identifies multiple
solutions that are consistent with the expert demonstrations by efficiently
exploring the reward function space. BO-IRL achieves this by utilizing Bayesian
Optimization along with our newly proposed kernel that (a) projects the
parameters of policy invariant reward functions to a single point in a latent
space and (b) ensures nearby points in the latent space correspond to reward
functions yielding similar likelihoods. This projection allows the use of
standard stationary kernels in the latent space to capture the correlations
present across the reward function space. Empirical results on synthetic and
real-world environments (model-free and model-based) show that BO-IRL discovers
multiple reward functions while minimizing the number of expensive exact policy
optimizations.
- Abstract(参考訳): 逆強化学習(irl)の問題は,価値アライメントやデモからのロボット学習など,さまざまなタスクに関係している。
近年のアルゴリズム的な貢献にもかかわらず、IRLはその中核にある不適切な問題であり、複数の報酬関数は観測された振る舞いと一致し、実際の報酬関数は事前の知識や補足情報なしでは識別できない。
本稿では,報酬関数空間を効率的に探索することにより,専門家の実証と整合した複数の解を同定する,ベイズ最適化IRL(BO-IRL)というIRLフレームワークを提案する。
BO-IRLはベイズ最適化と新たに提案したカーネルを利用してこれを実現する。
(a)政策不変報酬関数のパラメータを潜在空間内の1つの点に投影し、
(b) 潜在空間の近傍点が同様の可能性を持つ報酬関数に対応することを保証する。
この射影により、潜在空間における標準定常核を用いて、報酬関数空間にまたがる相関を捉えることができる。
合成および実世界の環境(モデルフリーおよびモデルベース)における経験的な結果から、bo-irlは、高価なポリシー最適化の数を最小化しながら、複数の報酬関数を発見できることが示されている。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - A Novel Variational Lower Bound for Inverse Reinforcement Learning [5.370126167091961]
逆強化学習(IRL)は、専門家の軌道から報酬関数を学習しようとする。
IRL(VLB-IRL)のための新しい変分下界について述べる。
本手法は,学習した報酬関数の下で報酬関数とポリシーを同時に学習する。
論文 参考訳(メタデータ) (2023-11-07T03:50:43Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。