論文の概要: Trusted Approximate Policy Iteration with Bisimulation Metrics
- arxiv url: http://arxiv.org/abs/2202.02881v1
- Date: Sun, 6 Feb 2022 22:41:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 14:38:33.873177
- Title: Trusted Approximate Policy Iteration with Bisimulation Metrics
- Title(参考訳): Bisimulation Metricsを用いた信頼された近似政策イテレーション
- Authors: Mete Kemertas, Allan Jepson
- Abstract要約: シミュレーションメトリクスは、報酬シーケンスの比較に基づいてマルコフ決定プロセス(MDP)の状態間の距離測定を定義する。
この研究において、まず、任意の$pgeq 1$に対して、任意の$p$-ワッサーシュタイン計量によって、バイシミュレーション測度を定義できることを証明した。
次に、$epsilon$-aggregationを$pi$-bisimulationで使用する近似ポリシー反復(API)手順を説明し、連続状態空間のパフォーマンス境界を証明する。
- 参考スコア(独自算出の注目度): 1.6498361958317633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bisimulation metrics define a distance measure between states of a Markov
decision process (MDP) based on a comparison of reward sequences. Due to this
property they provide theoretical guarantees in value function approximation.
In this work we first prove that bisimulation metrics can be defined via any
$p$-Wasserstein metric for $p\geq 1$. Then we describe an approximate policy
iteration (API) procedure that uses $\epsilon$-aggregation with
$\pi$-bisimulation and prove performance bounds for continuous state spaces. We
bound the difference between $\pi$-bisimulation metrics in terms of the change
in the policies themselves. Based on these theoretical results, we design an
API($\alpha$) procedure that employs conservative policy updates and enjoys
better performance bounds than the naive API approach. In addition, we propose
a novel trust region approach which circumvents the requirement to explicitly
solve a constrained optimization problem. Finally, we provide experimental
evidence of improved stability compared to non-conservative alternatives in
simulated continuous control.
- Abstract(参考訳): シミュレーションメトリクスは、報酬シーケンスの比較に基づいてマルコフ決定プロセス(MDP)の状態間の距離測定を定義する。
この性質により、値関数近似の理論的な保証を提供する。
この研究において、まず、任意の$p$-ワッサーシュタイン計量を$p\geq 1$で定義できることを証明する。
次に、$\epsilon$-aggregationを$\pi$-bisimulationで使用し、連続状態空間のパフォーマンス境界を証明する近似ポリシー反復(API)手順について述べる。
我々は、ポリシー自体の変化の観点から、$\pi$-bisimulation metricsの違いを制限した。
これらの理論的な結果に基づいて,api($\alpha$)プロシージャを設計し,保守的なポリシー更新を行い,naive apiアプローチよりも優れたパフォーマンスバウンダリを享受する。
さらに,制約付き最適化問題を明示的に解く必要を回避した,新たな信頼領域アプローチを提案する。
最後に,シミュレート連続制御における非保存的な代替品と比較して,安定性が向上する実験的証拠を提供する。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Bridging the Gap between Newton-Raphson Method and Regularized Policy
Iteration [13.166738075816493]
規則化されたポリシー反復は、強い凸関数を持つベルマン方程式を滑らかにする条件において、標準ニュートン・ラフソン法と厳密に等価であることを示す。
正規化政策反復が大域的線形収束を持ち、そのレートが$gamma$ (discount factor)であることを証明する。
また、正規化ポリシー反復の修正版、すなわち有限ステップのポリシー評価はニュートン法と等価であり、ニュートンの反復式はトランカットされた反復で解かれることを示す。
論文 参考訳(メタデータ) (2023-10-11T05:55:20Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Confident Approximate Policy Iteration for Efficient Local Planning in
$q^\pi$-realizable MDPs [2.5652904661855076]
我々は、$gamma$-discounted Markov決定過程における近似動的プログラミングについて考察する。
私たちの最初のコントリビューションは、CAPI(Confident Approximate Policy Iteration)と呼ばれる、新しいバージョンの近似ポリシーイテレーション(API)です。
CAPIは、最適エラーバウンドスケーリングによる決定論的定常ポリシーを、有効地平線$H$と最悪の近似誤差$epsilon$の積と線形に計算する。
論文 参考訳(メタデータ) (2022-10-27T20:19:31Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Towards Painless Policy Optimization for Constrained MDPs [46.12526917024248]
我々は、無限の地平線における政策最適化、$gamma$-discounted constrained Markov decision process (CMDP)について研究する。
我々の目標は、小さな制約違反で大きな期待された報酬を達成する政策を返却することである。
本稿では,任意のアルゴリズムに対して,報酬の準最適性と制約違反を拘束できる汎用的原始双対フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-11T15:08:09Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。