論文の概要: Probability Density Estimation Based Imitation Learning
- arxiv url: http://arxiv.org/abs/2112.06746v1
- Date: Mon, 13 Dec 2021 15:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:45:25.843906
- Title: Probability Density Estimation Based Imitation Learning
- Title(参考訳): 確率密度推定に基づく模倣学習
- Authors: Yang Liu, Yongzhe Chang, Shilei Jiang, Xueqian Wang, Bin Liang, Bo
Yuan
- Abstract要約: イミテーションラーニング(Imitation Learning, IL)は、エージェントと環境間の相互作用を利用した効果的な学習パラダイムである。
本研究では,IRLに対して,確率密度推定に基づく新たな報酬関数を提案する。
確率密度推定に基づく模倣学習(PDEIL)という「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.262633728487165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation Learning (IL) is an effective learning paradigm exploiting the
interactions between agents and environments. It does not require explicit
reward signals and instead tries to recover desired policies using expert
demonstrations. In general, IL methods can be categorized into Behavioral
Cloning (BC) and Inverse Reinforcement Learning (IRL). In this work, a novel
reward function based on probability density estimation is proposed for IRL,
which can significantly reduce the complexity of existing IRL methods.
Furthermore, we prove that the theoretically optimal policy derived from our
reward function is identical to the expert policy as long as it is
deterministic. Consequently, an IRL problem can be gracefully transformed into
a probability density estimation problem. Based on the proposed reward
function, we present a "watch-try-learn" style framework named Probability
Density Estimation based Imitation Learning (PDEIL), which can work in both
discrete and continuous action spaces. Finally, comprehensive experiments in
the Gym environment show that PDEIL is much more efficient than existing
algorithms in recovering rewards close to the ground truth.
- Abstract(参考訳): 模倣学習(il)はエージェントと環境間の相互作用を利用した効果的な学習パラダイムである。
明確な報酬信号は必要とせず、専門家のデモンストレーションを使って望ましいポリシーを回復しようとする。
一般に、il法は行動クローニング(bc)と逆強化学習(irl)に分類される。
本研究では, 確率密度推定に基づく新しい報酬関数をIRLに対して提案し, 既存のIRL法の複雑さを著しく低減することができる。
さらに, 報酬関数から導かれる理論的に最適な政策は, 決定論的である限り, 専門家の政策と同一であることを示す。
これにより、IRL問題を適切に確率密度推定問題に変換することができる。
提案した報奨関数に基づいて,確率密度推定に基づくImitation Learning (PDEIL) という,離散的かつ連続的な行動空間で動作する「ウォッチ・トライ・ラーン」スタイルのフレームワークを提案する。
最後に、Gym環境における総合的な実験により、PDEILは既存のアルゴリズムよりもはるかに効率的であることが示される。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Probabilistic Inference in Reinforcement Learning Done Right [37.31057328219418]
強化学習における一般的な見解は、マルコフ決定過程(MDP)のグラフィカルモデルに確率論的推論として問題を提起している。
この量を近似するための従来のアプローチは任意に貧弱であり、真の統計的推論を実装しないアルゴリズムに繋がる。
我々はまず、この量が、後悔によって測定されるように、効率的に探索するポリシーを生成するために実際に利用できることを明らかにした。
論文 参考訳(メタデータ) (2023-11-22T10:23:14Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Kernel Density Bayesian Inverse Reinforcement Learning [5.699034783029326]
逆強化学習(IRL)法は、エージェントの報酬関数を専門家の行動の実証を用いて推定する。
この研究は、ベイズIRLを様々な領域に適用できる原理的で理論的に基礎付けられた枠組みを導入している。
論文 参考訳(メタデータ) (2023-03-13T03:00:03Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。