論文の概要: Deterministic Trajectory Optimization through Probabilistic Optimal Control
- arxiv url: http://arxiv.org/abs/2407.13316v2
- Date: Tue, 8 Oct 2024 12:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:14:30.320659
- Title: Deterministic Trajectory Optimization through Probabilistic Optimal Control
- Title(参考訳): 確率的最適制御による決定論的軌道最適化
- Authors: Mohammad Mahmoudi Filabadi, Tom Lefebvre, Guillaume Crevecoeur,
- Abstract要約: 離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。
どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。
このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
- 参考スコア(独自算出の注目度): 3.2771631221674333
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This article proposes two new algorithms tailored to discrete-time deterministic finite-horizon nonlinear optimal control problems or so-called trajectory optimization problems. Both algorithms are inspired by a novel theoretical paradigm known as probabilistic optimal control, that reformulates optimal control as an equivalent probabilistic inference problem. This perspective allows to address the problem using the Expectation-Maximization algorithm. We show that the application of this algorithm results in a fixed point iteration of probabilistic policies that converge to the deterministic optimal policy. Two strategies for policy evaluation are discussed, using state-of-the-art uncertainty quantification methods resulting into two distinct algorithms. The algorithms are structurally closest related to the differential dynamic programming algorithm and related methods that use sigma-point methods to avoid direct gradient evaluations. The main advantage of our work is an improved balance between exploration and exploitation over the iterations, leading to improved numerical stability and accelerated convergence. These properties are demonstrated on different nonlinear systems.
- Abstract(参考訳): 本稿では、離散時間決定論的有限水平非線形最適制御問題またはいわゆる軌道最適化問題に適した2つの新しいアルゴリズムを提案する。
どちらのアルゴリズムも確率的最適制御と呼ばれる新しい理論パラダイムにインスパイアされ、最適制御を等価な確率的推論問題として再構成する。
この観点は、期待最大化アルゴリズムを用いてこの問題に対処することができる。
このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの固定点反復が得られることを示す。
現状の不確実性定量化手法を用いて,2つの異なるアルゴリズムによる政策評価手法について検討した。
これらのアルゴリズムは、直接勾配評価を避けるために、ディファレンシャル・ダイナミック・プログラミング・アルゴリズムおよびシグマ・ポイント・メソッドを使用する関連手法と構造的に最も近いものである。
我々の研究の主な利点は、反復に対する探索と搾取のバランスの改善であり、数値安定性の向上と収束の加速につながります。
これらの性質は異なる非線形系で示される。
関連論文リスト
- From Optimization to Control: Quasi Policy Iteration [3.4376560669160394]
準政治反復(QPI)と呼ばれる新しい制御アルゴリズムを提案する。
QPIは、政策反復アルゴリズムにおける「ヘシアン」行列の新たな近似に基づいて、MDPに特有の2つの線形構造制約を利用する。
これは、割引係数に対する感度が極めて低い政策反復と同様の実証的な収束挙動を示す。
論文 参考訳(メタデータ) (2023-11-18T21:00:14Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Reinforcement Learning with Unbiased Policy Evaluation and Linear
Function Approximation [11.345796608258434]
マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。
第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。
第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
論文 参考訳(メタデータ) (2022-10-13T20:16:19Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Zeroth and First Order Stochastic Frank-Wolfe Algorithms for Constrained
Optimization [13.170519806372075]
2組の制約を持つ凸最適化の問題は、半定値プログラミングの文脈で頻繁に発生する。
最初の制約セットへのプロジェクションは困難であるため、プロジェクションフリーなアルゴリズムを探索する必要がある。
提案アルゴリズムの有効性は, スパース行列推定, 半定緩和によるクラスタリング, および一様スペースカット問題の適用性について検証した。
論文 参考訳(メタデータ) (2021-07-14T08:01:30Z) - A Stochastic Sequential Quadratic Optimization Algorithm for Nonlinear
Equality Constrained Optimization with Rank-Deficient Jacobians [11.03311584463036]
滑らかな非線形等式制約最適化問題の解法として, 逐次2次最適化アルゴリズムを提案する。
数値実験の結果、このアルゴリズムは一般的な代替品と比較して優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-24T13:46:52Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Approximate Midpoint Policy Iteration for Linear Quadratic Control [1.0312968200748118]
モデルベースおよびモデルフリー設定の線形2次最適制御問題を解くために,中間点ポリシー反復アルゴリズムを提案する。
モデルに基づく設定では,2次収束と線形収束を両立させる標準方針反復法やポリシーアルゴリズムよりも優れている立方収束を実現する。
論文 参考訳(メタデータ) (2020-11-28T20:22:10Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Adaptivity of Stochastic Gradient Methods for Nonconvex Optimization [71.03797261151605]
適応性は現代最適化理論において重要であるが、研究されていない性質である。
提案アルゴリズムは,PL目標に対して既存のアルゴリズムよりも優れた性能を保ちながら,PL目標に対して最適な収束性を実現することを実証した。
論文 参考訳(メタデータ) (2020-02-13T05:42:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。