論文の概要: Deep Inverse Q-learning with Constraints
- arxiv url: http://arxiv.org/abs/2008.01712v1
- Date: Tue, 4 Aug 2020 17:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 23:46:16.699867
- Title: Deep Inverse Q-learning with Constraints
- Title(参考訳): 制約付き深い逆q学習
- Authors: Gabriel Kalweit, Maria Huegle, Moritz Werling, Joschka Boedecker
- Abstract要約: 我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
- 参考スコア(独自算出の注目度): 15.582910645906145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Popular Maximum Entropy Inverse Reinforcement Learning approaches require the
computation of expected state visitation frequencies for the optimal policy
under an estimate of the reward function. This usually requires intermediate
value estimation in the inner loop of the algorithm, slowing down convergence
considerably. In this work, we introduce a novel class of algorithms that only
needs to solve the MDP underlying the demonstrated behavior once to recover the
expert policy. This is possible through a formulation that exploits a
probabilistic behavior assumption for the demonstrations within the structure
of Q-learning. We propose Inverse Action-value Iteration which is able to fully
recover an underlying reward of an external agent in closed-form analytically.
We further provide an accompanying class of sampling-based variants which do
not depend on a model of the environment. We show how to extend this class of
algorithms to continuous state-spaces via function approximation and how to
estimate a corresponding action-value function, leading to a policy as close as
possible to the policy of the external agent, while optionally satisfying a
list of predefined hard constraints. We evaluate the resulting algorithms
called Inverse Action-value Iteration, Inverse Q-learning and Deep Inverse
Q-learning on the Objectworld benchmark, showing a speedup of up to several
orders of magnitude compared to (Deep) Max-Entropy algorithms. We further apply
Deep Constrained Inverse Q-learning on the task of learning autonomous
lane-changes in the open-source simulator SUMO achieving competent driving
after training on data corresponding to 30 minutes of demonstrations.
- Abstract(参考訳): 一般的な最大エントロピー逆強化学習手法は、報酬関数の推定の下で最適政策に対する期待状態訪問頻度の計算を必要とする。
これは通常、アルゴリズムの内部ループにおける中間値の推定を必要とし、収束をかなり遅くする。
本研究では,専門家の方針を回復するためには,実証行動の根底にあるMDPを解くことしか必要としない,新しいアルゴリズムのクラスを導入する。
これはQ-ラーニングの構造内の実演に対する確率的行動仮定を利用する定式化によって可能である。
本稿では,外部エージェントの下位報酬を解析的に完全に回収できる逆アクション値反復を提案する。
さらに、環境のモデルに依存しないサンプリングベースの変種を随伴するクラスを提供する。
このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と、対応するアクション値関数を推定する方法を示し、予め定義された制約のリストを任意に満たしながら、外部エージェントのポリシーにできるだけ近いポリシーを導出する。
objectworldベンチマークでは、逆アクション値反復、逆qラーニング、ディープ逆qラーニングと呼ばれるアルゴリズムを評価し、最大エントロピーアルゴリズムと比較して最大数桁の高速化を示した。
さらに,30分間のデモンストレーションに対応するデータに対して,学習後に有能な運転を実現するオープンソースシミュレータsumoの自律車線変更学習タスクに,深い制約付き逆q学習を適用する。
関連論文リスト
- Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。