論文の概要: FORESEE: Prediction with Expansion-Compression Unscented Transform for
Online Policy Optimization
- arxiv url: http://arxiv.org/abs/2209.12644v2
- Date: Thu, 1 Feb 2024 02:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 20:15:17.416561
- Title: FORESEE: Prediction with Expansion-Compression Unscented Transform for
Online Policy Optimization
- Title(参考訳): foresee: オンラインポリシー最適化のための拡張圧縮なし変換による予測
- Authors: Hardik Parwana and Dimitra Panagou
- Abstract要約: 本研究では,オンライン政策最適化問題のクラスを解くために,拡張圧縮アンセント変換(Expansion-Compression Unscented Transform)と呼ばれる状態予測手法を提案する。
提案アルゴリズムは状態依存分布を通じて有限個のシグマ点を伝播し,各段階におけるシグマ点数の増加を規定する。
その性能はモンテカルロに匹敵するが、計算コストははるかに低い。
- 参考スコア(独自算出の注目度): 8.97438370260135
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Propagating state distributions through a generic, uncertain nonlinear
dynamical model is known to be intractable and usually begets numerical or
analytical approximations. We introduce a method for state prediction, called
the Expansion-Compression Unscented Transform, and use it to solve a class of
online policy optimization problems. Our proposed algorithm propagates a finite
number of sigma points through a state-dependent distribution, which dictates
an increase in the number of sigma points at each time step to represent the
resulting distribution; this is what we call the expansion operation. To keep
the algorithm scalable, we augment the expansion operation with a compression
operation based on moment matching, thereby keeping the number of sigma points
constant across predictions over multiple time steps. Its performance is
empirically shown to be comparable to Monte Carlo but at a much lower
computational cost. Under state and control input constraints, the state
prediction is subsequently used in tandem with a proposed variant of
constrained gradient-descent for online update of policy parameters in a
receding horizon fashion. The framework is implemented as a differentiable
computational graph for policy training. We showcase our framework for a
quadrotor stabilization task as part of a benchmark comparison in
safe-control-gym and for optimizing the parameters of a Control Barrier
Function based controller in a leader-follower problem.
- Abstract(参考訳): 一般的で不確定な非線形力学モデルによる状態分布の伝播は難解であり、通常は数値的あるいは解析的な近似が得られる。
本稿では, 拡張圧縮非香り変換と呼ばれる状態予測手法を導入し, オンライン政策最適化問題の解法として用いる。
提案アルゴリズムは、状態依存分布を通じて有限個のシグマ点を伝播し、各段階におけるシグマ点数の増加を予測して結果の分布を表現し、これを拡張演算と呼ぶ。
アルゴリズムをスケーラブルに保つために,モーメントマッチングに基づく圧縮操作により拡張操作を増強し,複数の時間ステップにわたる予測に対してシグマ点数を一定に保つ。
その性能はモンテカルロに匹敵するが、計算コストははるかに低いことが実証的に示されている。
状態および制御入力制約の下では、状態予測はその後、後退地平線方式でポリシーパラメータをオンライン更新するための制約付き勾配の変種として提案される。
このフレームワークは、ポリシートレーニングのための微分可能な計算グラフとして実装されている。
本稿では,安全な制御ジャムのベンチマーク比較の一環として,制御バリア関数に基づく制御器のパラメータをリーダ・フォロワー問題で最適化するための四重項安定化タスクの枠組みを紹介する。
関連論文リスト
- Performative Reinforcement Learning with Linear Markov Decision Process [14.75815792682734]
提案手法がマルコフ決定過程の報酬と遷移の両方に影響を及ぼすような表現的強化学習の設定について検討する。
大規模MDPの主要な理論モデルであるEmphlinear Markov決定過程を一般化する。
論文 参考訳(メタデータ) (2024-11-07T23:04:48Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Convergence of policy gradient methods for finite-horizon exploratory
linear-quadratic control problems [3.8661825615213012]
有限水平連続時間探索線形四元数制御(LQC)問題に対する政策勾配法(PG法)の大域的線形収束について検討する。
本稿では,離散時間ポリシーを持つ新しいPG法を提案する。このアルゴリズムは連続時間解析を活用し,動作周波数の異なる線形収束性を実現する。
論文 参考訳(メタデータ) (2022-11-01T17:31:41Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Structural Estimation of Markov Decision Processes in High-Dimensional
State Space with Finite-Time Guarantees [39.287388288477096]
本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。
この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。
本研究では,高次元状態空間を扱うための有限時間保証付き単一ループ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T00:11:38Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。