論文の概要: FORESEE: Model-based Reinforcement Learning using Unscented Transform
with application to Tuning of Control Barrier Functions
- arxiv url: http://arxiv.org/abs/2209.12644v1
- Date: Mon, 26 Sep 2022 12:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 18:37:27.933551
- Title: FORESEE: Model-based Reinforcement Learning using Unscented Transform
with application to Tuning of Control Barrier Functions
- Title(参考訳): FORESEE: Unscented Transform を用いたモデルに基づく強化学習と制御バリア関数のチューニング
- Authors: Hardik Parwana and Dimitra Panagou
- Abstract要約: 本研究では,Unscented Transform を用いた新しいオンラインモデルベース強化学習アルゴリズムを提案する。
一般的な状態依存不確実性モデルを通して伝播する際のシグマ点数の爆発を防止するために,シグマ点展開層と収縮層をグラフに追加する。
最後に、状態制約が存在する場合にポリシーパラメータを更新するために、シークエンシャル・クアドラティック・プログラミングにインスパイアされた勾配降下法を提案する。
- 参考スコア(独自算出の注目度): 3.274290296343038
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we introduce a novel online model-based reinforcement learning
algorithm that uses Unscented Transform to propagate uncertainty for the
prediction of the future reward. Previous approaches either approximate the
state distribution at each step of the prediction horizon with a Gaussian, or
perform Monte Carlo simulations to estimate the rewards. Our method, depending
on the number of sigma points employed, can propagate either mean and
covariance with minimal points, or higher-order moments with more points
similarly to Monte Carlo. The whole framework is implemented as a computational
graph for online training. Furthermore, in order to prevent explosion in the
number of sigma points when propagating through a generic state-dependent
uncertainty model, we add sigma-point expansion and contraction layers to our
graph, which are designed using the principle of moment matching. Finally, we
propose gradient descent inspired by Sequential Quadratic Programming to update
policy parameters in the presence of state constraints. We demonstrate the
proposed method with two applications in simulation. The first one designs a
stabilizing controller for the cart-pole problem when the dynamics is known
with state-dependent uncertainty. The second example, following up on our
previous work, tunes the parameters of a control barrier function-based
Quadratic Programming controller for a leader-follower problem in the presence
of input constraints.
- Abstract(参考訳): 本稿では,不確実性を利用したオンラインモデルに基づく強化学習アルゴリズムを提案する。
事前のアプローチでは、予測水平線の各ステップにおける状態分布をガウシアンと近似するか、あるいはモンテカルロシミュレーションを行い、報酬を推定する。
本手法は,採用するシグマ点の数に応じて,極小点に対する平均および共分散あるいはモンテカルロと同様により多くの点を持つ高次モーメントを伝播することができる。
フレームワーク全体がオンライントレーニングのための計算グラフとして実装されている。
さらに,汎用状態依存不確実性モデルを通じて伝播するシグマ点数の爆発を防止するために,モーメントマッチングの原理を用いて設計されたシグマ点拡大と縮小層をグラフに追加する。
最後に,逐次二次計画法に触発された勾配降下法を提案し,状態制約が存在する場合にポリシーパラメータを更新する。
提案手法をシミュレーションに2つの応用例で示す。
最初のものは、状態依存の不確かさでダイナミクスが知られているとき、カートポール問題の安定化制御器を設計する。
第2の例は、前回の作業に続いて、入力制約が存在する場合、リーダフォロー問題に対する制御バリア関数ベースの二次プログラミングコントローラのパラメータをチューニングします。
関連論文リスト
- Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Convergence of policy gradient methods for finite-horizon exploratory
linear-quadratic control problems [3.8661825615213012]
有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。
本稿では,離散時間ポリシーを持つ新しいPG法を提案する。このアルゴリズムは連続時間解析を活用し,動作周波数の異なる線形収束性を実現する。
論文 参考訳(メタデータ) (2022-11-01T17:31:41Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。