論文の概要: Value Iteration in Continuous Actions, States and Time
- arxiv url: http://arxiv.org/abs/2105.04682v1
- Date: Mon, 10 May 2021 21:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 13:44:32.129136
- Title: Value Iteration in Continuous Actions, States and Time
- Title(参考訳): 継続的行動、状態、時間における価値反復
- Authors: Michael Lutter and Shie Mannor and Jan Peters and Dieter Fox and
Animesh Garg
- Abstract要約: 連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
- 参考スコア(独自算出の注目度): 99.00362538261972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classical value iteration approaches are not applicable to environments with
continuous states and actions. For such environments, the states and actions
are usually discretized, which leads to an exponential increase in
computational complexity. In this paper, we propose continuous fitted value
iteration (cFVI). This algorithm enables dynamic programming for continuous
states and actions with a known dynamics model. Leveraging the continuous-time
formulation, the optimal policy can be derived for non-linear control-affine
dynamics. This closed-form solution enables the efficient extension of value
iteration to continuous environments. We show in non-linear control experiments
that the dynamic programming solution obtains the same quantitative performance
as deep reinforcement learning methods in simulation but excels when
transferred to the physical system. The policy obtained by cFVI is more robust
to changes in the dynamics despite using only a deterministic model and without
explicitly incorporating robustness in the optimization. Videos of the physical
system are available at \url{https://sites.google.com/view/value-iteration}.
- Abstract(参考訳): 古典的な価値反復アプローチは、連続した状態とアクションを持つ環境では適用できない。
このような環境では、状態と行動は通常離散化され、計算複雑性が指数関数的に増加する。
本稿では,連続適合値反復(cFVI)を提案する。
このアルゴリズムは、既知のダイナミクスモデルによる連続状態とアクションに対する動的プログラミングを可能にする。
連続時間定式化を利用すると、最適方針は非線形制御-アフィン力学に導出することができる。
このクローズドフォームソリューションは、継続的な環境に対する価値反復の効率的な拡張を可能にします。
非線形制御実験では, 動的計画法が深層強化学習法と同じ量的性能をシミュレーションで得るが, 物理系に移管した場合に優れていることを示す。
cfviによって得られたポリシーは、決定論的モデルのみを使用しても、最適化に堅牢性を明示的に組み込むことなく、ダイナミクスの変化に対してより堅牢である。
物理システムのビデオは \url{https://sites.google.com/view/value-iteration} で見ることができる。
関連論文リスト
- Amortized Control of Continuous State Space Feynman-Kac Model for Irregular Time Series [14.400596021890863]
医療、気候、経済などの現実世界のデータセットは、しばしば不規則な時系列として収集される。
本稿では,連続状態空間モデル (ACSSM) を時系列の連続的動的モデリングに用いるためのアモータイズ制御を提案する。
論文 参考訳(メタデータ) (2024-10-08T01:27:46Z) - Neural ODEs as Feedback Policies for Nonlinear Optimal Control [1.8514606155611764]
ニューラルネットワークをパラメータ化した微分方程式として連続時間力学をモデル化するために、ニューラル常微分方程式(ニューラルODE)を用いる。
本稿では,一般非線形最適制御問題の解法としてニューラル・オードとして提案するニューラル・コントロール・ポリシーを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:19:26Z) - Accelerated Continuous-Time Approximate Dynamic Programming via
Data-Assisted Hybrid Control [0.0]
本研究では,アクター・クリティックな構造に動的運動量を組み込んだアルゴリズムを導入し,アフィン構造を入力とする連続時間動植物を制御する。
アルゴリズムに動的運動量を導入することにより、閉ループ系の収束特性を加速することができる。
論文 参考訳(メタデータ) (2022-04-27T05:36:51Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。