論文の概要: Kernel Density Bayesian Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.06827v1
- Date: Mon, 13 Mar 2023 03:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 16:41:45.289962
- Title: Kernel Density Bayesian Inverse Reinforcement Learning
- Title(参考訳): カーネル密度ベイズ逆強化学習
- Authors: Aishwarya Mandyam, Didong Li, Diana Cai, Andrew Jones, Barbara E.
Engelhardt
- Abstract要約: 逆強化学習(IRL)は、エージェントの行動を観察して報酬関数を推測する強力なフレームワークである。
本稿では、条件付きカーネル密度推定を用いて、その可能性を直接近似するカーネル密度ベイズIRLを提案する。
- 参考スコア(独自算出の注目度): 4.267851400091519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning~(IRL) is a powerful framework to infer an
agent's reward function by observing its behavior, but IRL algorithms that
learn point estimates of the reward function can be misleading because there
may be several functions that describe an agent's behavior equally well. A
Bayesian approach to IRL models a distribution over candidate reward functions,
alleviating the shortcomings of learning a point estimate. However, several
Bayesian IRL algorithms use a $Q$-value function in place of the likelihood
function. The resulting posterior is computationally intensive to calculate,
has few theoretical guarantees, and the $Q$-value function is often a poor
approximation for the likelihood. We introduce kernel density Bayesian IRL
(KD-BIRL), which uses conditional kernel density estimation to directly
approximate the likelihood, providing an efficient framework that, with a
modified reward function parameterization, is applicable to environments with
complex and infinite state spaces. We demonstrate KD-BIRL's benefits through a
series of experiments in Gridworld environments and a simulated sepsis
treatment task.
- Abstract(参考訳): 逆強化学習(irl)はエージェントの報酬関数の振る舞いを観察することで推測する強力なフレームワークであるが、報酬関数のポイント推定を学習するirlアルゴリズムは、エージェントの振る舞いを等しく記述するいくつかの関数が存在するため、誤解を招く可能性がある。
IRLに対するベイズ的アプローチは、候補報酬関数上の分布をモデル化し、点推定を学習する際の欠点を緩和する。
しかし、いくつかのベイジアンIRLアルゴリズムは、確率関数の代わりに$Q$値関数を使用する。
結果として得られる後続関数は計算に集約的であり、理論的な保証はほとんどなく、$Q$-値関数は可能性の低い近似であることが多い。
本稿では,カーネル密度IRL(KD-BIRL)を導入し,条件付きカーネル密度推定を用いてその可能性を直接近似し,複雑な状態空間と無限の状態空間を持つ環境に適用可能な,報酬関数のパラメータ化を改良した効率的なフレームワークを提供する。
KD-BIRLの利点をグリッドワールド環境における一連の実験とシミュレートされたセシス処理タスクを通じて実証する。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Learning Representations on the Unit Sphere: Investigating Angular
Gaussian and von Mises-Fisher Distributions for Online Continual Learning [7.145581090959242]
本稿では,新たな損失関数を備えたメモリベース表現学習手法を提案する。
提案手法は,タスク境界がぼやけた標準的な評価シナリオと現実的なシナリオの両方において,現状の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-06T02:38:01Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Probability Density Estimation Based Imitation Learning [11.262633728487165]
イミテーションラーニング(Imitation Learning, IL)は、エージェントと環境間の相互作用を利用した効果的な学習パラダイムである。
本研究では,IRLに対して,確率密度推定に基づく新たな報酬関数を提案する。
確率密度推定に基づく模倣学習(PDEIL)という「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-13T15:55:38Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。
本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。
提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文 参考訳(メタデータ) (2020-11-09T19:37:48Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。