論文の概要: Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees
- arxiv url: http://arxiv.org/abs/2210.01808v1
- Date: Tue, 4 Oct 2022 17:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:16:28.669148
- Title: Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees
- Title(参考訳): 有限時間保証による最大類似逆強化学習
- Authors: Siliang Zeng, Chenliang Li, Alfredo Garcia, Mingyi Hong
- Abstract要約: 逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 56.848265937921354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) aims to recover the reward function and
the associated optimal policy that best fits observed sequences of states and
actions implemented by an expert. Many algorithms for IRL have an inherently
nested structure: the inner loop finds the optimal policy given parametrized
rewards while the outer loop updates the estimates towards optimizing a measure
of fit. For high dimensional environments such nested-loop structure entails a
significant computational burden. To reduce the computational burden of a
nested loop, novel methods such as SQIL [1] and IQ-Learn [2] emphasize policy
estimation at the expense of reward estimation accuracy. However, without
accurate estimated rewards, it is not possible to do counterfactual analysis
such as predicting the optimal policy under different environment dynamics
and/or learning new tasks. In this paper we develop a novel single-loop
algorithm for IRL that does not compromise reward estimation accuracy. In the
proposed algorithm, each policy improvement step is followed by a stochastic
gradient step for likelihood maximization. We show that the proposed algorithm
provably converges to a stationary solution with a finite-time guarantee. If
the reward is parameterized linearly, we show the identified solution
corresponds to the solution of the maximum entropy IRL problem. Finally, by
using robotics control problems in MuJoCo and their transfer settings, we show
that the proposed algorithm achieves superior performance compared with other
IRL and imitation learning benchmarks.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家が実施した状態や行動の観測シーケンスに最も適した報酬関数と関連する最適ポリシーを回復することを目的としている。
多くのirlのアルゴリズムは本質的に入れ子構造を持ち、内側ループはパラメータ化された報酬が与えられた最適ポリシーを見つけ、外側ループは適合尺度の最適化のために推定値を更新する。
高次元環境では、ネストループ構造は大きな計算負担を伴う。
ネストループの計算負担を軽減するため、SQIL [1] やIQ-Learn [2] のような新しい手法では、報酬推定精度を犠牲にして政策推定を強調する。
しかし、正確な推定報酬がなければ、異なる環境ダイナミクスの下で最適な政策を予測したり、新しいタスクを学習したりといった対実的な分析はできない。
本稿では、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発する。
提案アルゴリズムでは,各ポリシー改善ステップを確率的勾配ステップで追従し,最大化を行う。
提案アルゴリズムは有限時間保証付き定常解に確実に収束することを示す。
報酬が線形にパラメータ化されている場合、同定された解は最大エントロピーirl問題の解に対応する。
最後に、MuJoCoにおけるロボット制御問題とその転送設定を用いて、提案アルゴリズムが他のIRLや模倣学習ベンチマークと比較して優れた性能を達成することを示す。
関連論文リスト
- Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - An Efficient Algorithm for Deep Stochastic Contextual Bandits [10.298368632706817]
コンテキスト境界の問題では、エージェントは特定の観察されたコンテキストに基づいてアクションを選択し、反復よりも報酬を最大化します。
近年、ディープニューラルネットワーク(DNN)を用いて行動に対する期待される報酬を予測する研究がいくつか行われ、勾配に基づく手法で訓練されている。
論文 参考訳(メタデータ) (2021-04-12T16:34:43Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Langevin Dynamics for Adaptive Inverse Reinforcement Learning of
Stochastic Gradient Algorithms [21.796874356469644]
逆強化学習(IRL)は, エージェントの応答を観察することで, エージェントの報酬関数を推定することを目的としている。
我々は、報酬関数 $R(theta)$ を推定するために一般化されたランゲヴィン力学を示す。
提案したIRLアルゴリズムは、カーネルベースの受動的学習スキームを用いて、$exp(R(theta)$に比例した分布からサンプルを生成する。
論文 参考訳(メタデータ) (2020-06-20T23:12:11Z) - A Hybrid Stochastic Policy Gradient Algorithm for Reinforcement Learning [32.91450388566405]
近接ハイブリッドポリシー勾配アルゴリズム(ProxHSPGA)の開発
両アルゴリズムが最もよく知られた軌跡複雑性を$mathcalOleft(varepsilon-4right)$で実現できることを証明している。
我々は、強化学習におけるいくつかのよく知られた例に基づいて、アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2020-03-01T07:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。