論文の概要: Advancing Trajectory Optimization with Approximate Inference:
Exploration, Covariance Control and Adaptive Risk
- arxiv url: http://arxiv.org/abs/2103.06319v1
- Date: Wed, 10 Mar 2021 19:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 22:28:47.174309
- Title: Advancing Trajectory Optimization with Approximate Inference:
Exploration, Covariance Control and Adaptive Risk
- Title(参考訳): 近似推論による軌道最適化の進展:探索、共分散制御、適応リスク
- Authors: Joe Watson, Jan Peters
- Abstract要約: 制御(i2c)アルゴリズムの入力推論を検討し、高度な軌道最適化を可能にする3つの重要な特性を導出する。
非線形システムを最適化する際に、オープンループオプティマとクローズドループ分散低減の利点を組み合わせた専門家の線形ガウスコントローラ。
- 参考スコア(独自算出の注目度): 29.811633555275666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete-time stochastic optimal control remains a challenging problem for
general, nonlinear systems under significant uncertainty, with practical
solvers typically relying on the certainty equivalence assumption, replanning
and/or extensive regularization. Control as inference is an approach that
frames stochastic control as an equivalent inference problem, and has
demonstrated desirable qualities over existing methods, namely in exploration
and regularization. We look specifically at the input inference for control
(i2c) algorithm, and derive three key characteristics that enable advanced
trajectory optimization: An `expert' linear Gaussian controller that combines
the benefits of open-loop optima and closed-loop variance reduction when
optimizing for nonlinear systems, inherent adaptive risk sensitivity from the
inference formulation, and covariance control functionality with only a minor
algorithmic adjustment.
- Abstract(参考訳): 離散時間確率的最適制御は、有意な不確実性の下での一般非線形システムにとって困難な問題であり、実用的ソルバは通常、確実性等価仮定、再計画および/または広範な正規化に依存する。
推論としての制御(英: Control as inference)は、確率的制御を等価な推論問題とみなすアプローチであり、探索や正規化など既存の手法よりも望ましい性質を示している。
我々は、制御(i2c)アルゴリズムの入力推論を特に検討し、高度な軌道最適化を可能にする3つの重要な特性を導出する:オープンループオプティマイマの利点と非線形システムのために最適化するときのクローズドループ分散減少を組み合わせた「専門家」線形ガウスコントローラ、推論定式化からの固有の適応リスク感受性、およびわずかなアルゴリズムの調整だけで共分散制御機能。
関連論文リスト
- Unifying Controller Design for Stabilizing Nonlinear Systems with
Norm-Bounded Control Inputs [8.573073817861973]
本稿では,ノルム有界な入力制約を持つ非線形システムの安定化制御系の設計における課題を再考する。
Lin-Sontagの普遍的な公式を拡張し、汎用的な(状態に依存した)スケーリング項を導入することにより、統一的なコントローラ設計法を提案する。
論文 参考訳(メタデータ) (2024-03-05T15:06:16Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Primal-Dual Contextual Bayesian Optimization for Control System Online
Optimization with Time-Average Constraints [21.38692458445459]
本稿では,制約付き閉ループ制御システムのオンライン性能最適化問題について検討する。
動的最適解に対する線形累積後悔を克服する主元-双対文脈ベイズ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-12T18:37:52Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Control Occupation Kernel Regression for Nonlinear Control-Affine
Systems [6.308539010172309]
非線形高次制御アフィン力学系の近似を求めるアルゴリズムを提案する。
ヒルベルト空間のベクトル値構造は、ドリフトと制御アフィン系の制御有効成分の同時近似を可能にする。
論文 参考訳(メタデータ) (2021-05-31T21:14:30Z) - Stochastic Control through Approximate Bayesian Input Inference [23.65155934960922]
不確実性下での最適制御は、最適化問題のためのトラクタブルソリューションの作成が困難であるため、制御の一般的な課題です。
制御問題を入力推定の1つとすることで、高度な近似推論技術を用いて統計近似を原理的かつ実用的な方法で処理することができる。
論文 参考訳(メタデータ) (2021-05-17T09:27:12Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Technical Report: Adaptive Control for Linearizable Systems Using
On-Policy Reinforcement Learning [41.24484153212002]
本稿では,未知システムに対するフィードバック線形化に基づくトラッキング制御系を適応的に学習するフレームワークを提案する。
学習した逆モデルがすべての時点において可逆である必要はない。
二重振り子の模擬例は、提案された理論の有用性を示している。
論文 参考訳(メタデータ) (2020-04-06T15:50:31Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。