論文の概要: Continuous-Time Fitted Value Iteration for Robust Policies
- arxiv url: http://arxiv.org/abs/2110.01954v1
- Date: Tue, 5 Oct 2021 11:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 13:59:34.993080
- Title: Continuous-Time Fitted Value Iteration for Robust Policies
- Title(参考訳): ロバストなポリシーのための連続時間適合価値イテレーション
- Authors: Michael Lutter, Boris Belousov, Shie Mannor, Dieter Fox, Animesh Garg,
Jan Peters
- Abstract要約: ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
- 参考スコア(独自算出の注目度): 93.25997466553929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving the Hamilton-Jacobi-Bellman equation is important in many domains
including control, robotics and economics. Especially for continuous control,
solving this differential equation and its extension the Hamilton-Jacobi-Isaacs
equation, is important as it yields the optimal policy that achieves the
maximum reward on a give task. In the case of the Hamilton-Jacobi-Isaacs
equation, which includes an adversary controlling the environment and
minimizing the reward, the obtained policy is also robust to perturbations of
the dynamics. In this paper we propose continuous fitted value iteration (cFVI)
and robust fitted value iteration (rFVI). These algorithms leverage the
non-linear control-affine dynamics and separable state and action reward of
many continuous control problems to derive the optimal policy and optimal
adversary in closed form. This analytic expression simplifies the differential
equations and enables us to solve for the optimal value function using value
iteration for continuous actions and states as well as the adversarial case.
Notably, the resulting algorithms do not require discretization of states or
actions. We apply the resulting algorithms to the Furuta pendulum and cartpole.
We show that both algorithms obtain the optimal policy. The robustness Sim2Real
experiments on the physical systems show that the policies successfully achieve
the task in the real-world. When changing the masses of the pendulum, we
observe that robust value iteration is more robust compared to deep
reinforcement learning algorithm and the non-robust version of the algorithm.
Videos of the experiments are shown at https://sites.google.com/view/rfvi
- Abstract(参考訳): ハミルトン・ヤコビ・ベルマン方程式の解法は制御、ロボット工学、経済学など多くの分野において重要である。
特に連続制御の場合、この微分方程式とその拡張であるハミルトン・ヤコビ・イザックス方程式は、与えられたタスクに対する最大報酬を達成する最適なポリシーをもたらすため重要である。
環境を制御し、報酬を最小化する敵を含むハミルトン・ヤコビ・isaacs方程式の場合、得られるポリシーは力学の摂動にも頑健である。
本稿では, 連続適合値反復 (cFVI) とロバスト適合値反復 (rFVI) を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィン力学と分離可能な状態と作用報酬を利用して、閉形式の最適ポリシーと最適逆数を引き出す。
この解析式は微分方程式を単純化し、連続的な動作や状態に対する値反復と逆の場合の最適値関数を解くことができる。
特に、結果のアルゴリズムは状態やアクションの離散化を必要としない。
結果のアルゴリズムを古田振り子とカートポールに適用する。
両者のアルゴリズムが最適方針を得ることを示す。
物理システムにおけるロバスト性 Sim2Real 実験により, 実世界の課題の実現に成功していることが示された。
振り子の質量を変化させる際,強化学習アルゴリズムや非ロバスト版のアルゴリズムに比べてロバストな値反復がより頑健であることを観察する。
実験のビデオはhttps://sites.google.com/view/rfviで見ることができる。
関連論文リスト
- Neural Time-Reversed Generalized Riccati Equation [60.92253836775246]
ハミルトン方程式は、コストテートとして知られる補助変数を通して最適性の解釈を提供する。
本稿では,前向きに作業することを目的とした,新しいニューラルベースによる最適制御手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T19:29:37Z) - Solving Robust MDPs through No-Regret Dynamics [1.3597551064547502]
強化学習(Reinforcement Learning)は、エージェントがさまざまな状況をナビゲートするための強力なフレームワークである。
政策訓練法を改善するために,アルゴリズムをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-30T13:52:16Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。