論文の概要: Kernel Density Bayesian Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.06827v1
- Date: Mon, 13 Mar 2023 03:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:41:45.289962
- Title: Kernel Density Bayesian Inverse Reinforcement Learning
- Title(参考訳): カーネル密度ベイズ逆強化学習
- Authors: Aishwarya Mandyam, Didong Li, Diana Cai, Andrew Jones, Barbara E.
Engelhardt
- Abstract要約: 逆強化学習(IRL)は、エージェントの行動を観察して報酬関数を推測する強力なフレームワークである。
本稿では、条件付きカーネル密度推定を用いて、その可能性を直接近似するカーネル密度ベイズIRLを提案する。
- 参考スコア(独自算出の注目度): 4.267851400091519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning~(IRL) is a powerful framework to infer an
agent's reward function by observing its behavior, but IRL algorithms that
learn point estimates of the reward function can be misleading because there
may be several functions that describe an agent's behavior equally well. A
Bayesian approach to IRL models a distribution over candidate reward functions,
alleviating the shortcomings of learning a point estimate. However, several
Bayesian IRL algorithms use a $Q$-value function in place of the likelihood
function. The resulting posterior is computationally intensive to calculate,
has few theoretical guarantees, and the $Q$-value function is often a poor
approximation for the likelihood. We introduce kernel density Bayesian IRL
(KD-BIRL), which uses conditional kernel density estimation to directly
approximate the likelihood, providing an efficient framework that, with a
modified reward function parameterization, is applicable to environments with
complex and infinite state spaces. We demonstrate KD-BIRL's benefits through a
series of experiments in Gridworld environments and a simulated sepsis
treatment task.
- Abstract(参考訳): 逆強化学習(irl)はエージェントの報酬関数の振る舞いを観察することで推測する強力なフレームワークであるが、報酬関数のポイント推定を学習するirlアルゴリズムは、エージェントの振る舞いを等しく記述するいくつかの関数が存在するため、誤解を招く可能性がある。
IRLに対するベイズ的アプローチは、候補報酬関数上の分布をモデル化し、点推定を学習する際の欠点を緩和する。
しかし、いくつかのベイジアンIRLアルゴリズムは、確率関数の代わりに$Q$値関数を使用する。
結果として得られる後続関数は計算に集約的であり、理論的な保証はほとんどなく、$Q$-値関数は可能性の低い近似であることが多い。
本稿では,カーネル密度IRL(KD-BIRL)を導入し,条件付きカーネル密度推定を用いてその可能性を直接近似し,複雑な状態空間と無限の状態空間を持つ環境に適用可能な,報酬関数のパラメータ化を改良した効率的なフレームワークを提供する。
KD-BIRLの利点をグリッドワールド環境における一連の実験とシミュレートされたセシス処理タスクを通じて実証する。
関連論文リスト
- Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Probability Density Estimation Based Imitation Learning [11.262633728487165]
イミテーションラーニング(Imitation Learning, IL)は、エージェントと環境間の相互作用を利用した効果的な学習パラダイムである。
本研究では,IRLに対して,確率密度推定に基づく新たな報酬関数を提案する。
確率密度推定に基づく模倣学習(PDEIL)という「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T15:55:38Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - $\pi$VAE: a stochastic process prior for Bayesian deep learning with
MCMC [2.4792948967354236]
先行符号化オートエンコーダ(pi$VAE)と呼ばれる新しい変分オートエンコーダを提案する。
本稿では,ガウス過程などの表現型関数クラスを正確に学習できるだけでなく,統計的推論を可能にする関数の性質も示す。
おそらく最も有用なのは、低次元分散潜在空間表現学習が、Stanのようなプログラミング言語内でプロセスの推論を行うエレガントでスケーラブルな手段を提供することを示すことである。
論文 参考訳(メタデータ) (2020-02-17T10:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。