論文の概要: Optimal Control as Variational Inference
- arxiv url: http://arxiv.org/abs/2205.03279v1
- Date: Fri, 6 May 2022 15:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 14:20:38.521358
- Title: Optimal Control as Variational Inference
- Title(参考訳): 変分推論としての最適制御
- Authors: Tom Lefebvre
- Abstract要約: 本稿では,確率論的かつリスクに敏感な最適制御問題に対処し,変動推論の原理を用いて確率論的モデルを分解・解いた。
決定論的最適政策を反復的に推測できる2つの異なる確率的推論手順にどのように達するかを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this article we address the stochastic and risk sensitive optimal control
problem probabilistically and decompose and solve the probabilistic models
using principles from variational inference. We demonstrate how this culminates
into two separate probabilistic inference procedures that allow to iteratively
infer the deterministic optimal policy. More formally a sequence of belief
policies, as a probabilistic proxy for the deterministic optimal policy, is
specified through a fixed point iteration with the equilibrium point coinciding
with the deterministic solution. These results re-establish the paradigm of
Control as Inference, a concept explored and exploited originally by the
Reinforcement Learning community anticipating deep rooted connections between
optimal estimation and control. Although the Control as Inference paradigm
already resulted in the development of several Reinforcement Learning
algorithms, until now the underlying mechanism were only partially understood.
For that very reason control as inference has not been well received by the
control community. By exposing the underlying mechanism we aim to contribute to
its general acceptance as a framework superseding optimal control. In order to
exhibit its general relevance we discuss parallels with path integral control
and discuss a wide range of possible applications.
- Abstract(参考訳): 本稿では,確率的かつリスクに敏感な最適制御問題を確率論的に解き,変分推論の原理を用いて確率的モデルを分解し,解く。
決定論的最適方針を反復的に推測できる2つの確率的推論手順に結実することを示す。
より正式には、決定論的最適ポリシーの確率的プロキシとしての信念ポリシーの列は、決定論的解と一致する平衡点を持つ固定点反復を通して特定される。
これらの結果は、最適推定と制御の深い根本的関係を期待する強化学習コミュニティによって元々探求され、活用された、制御としての制御のパラダイムを再確立する。
Control as Inferenceパラダイムがすでにいくつかの強化学習アルゴリズムの開発に結びついているが、これまでは基盤となるメカニズムは部分的にしか理解されていなかった。
そのため、推論としての制御はコントロールコミュニティからはあまり受け入れられていない。
基盤となるメカニズムを明らかにすることで、最適な制御に取って代わるフレームワークとして、一般的に受け入れられることを目指している。
その一般性を示すため,経路積分制御の並列性について議論し,幅広い応用の可能性について議論する。
関連論文リスト
- A successive approximation method in functional spaces for hierarchical optimal control problems and its application to learning [0.0]
本研究では,高次元非線形関数をモデル化するための点推定の学習問題について考察する。
デューコースにおける推定パラメータは、異なるモデル検証データセット上で許容できる予測精度を提供する。
最適化段階における一般化と正規化の両方を適切に考慮する枠組みを提供する。
論文 参考訳(メタデータ) (2024-10-27T22:28:07Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Model Predictive Control with Gaussian-Process-Supported Dynamical
Constraints for Autonomous Vehicles [82.65261980827594]
本研究では、学習したガウス過程を利用して人間の運転行動を予測する自動運転車のモデル予測制御手法を提案する。
マルチモード予測制御アプローチは、人間のドライバーの意図を考察する。
論文 参考訳(メタデータ) (2023-03-08T17:14:57Z) - Probabilistic learning constrained by realizations using a weak
formulation of Fourier transform of probability measures [0.0]
本稿は、クルバック・リーバー最小原理の制約として与えられた実現の集合を考慮することを扱う。
関数的アプローチは確率測度のフーリエ変換の弱い定式化に基づいて展開される。
提案した高次元応用は,提案アルゴリズムの効率性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-05-06T08:54:57Z) - Integrated Conditional Estimation-Optimization [6.037383467521294]
確率のある不確実なパラメータを文脈的特徴情報を用いて推定できる実世界の多くの最適化問題である。
不確実なパラメータの分布を推定する標準的な手法とは対照的に,統合された条件推定手法を提案する。
当社のI CEOアプローチは、穏健な条件下で理論的に一貫性があることを示します。
論文 参考訳(メタデータ) (2021-10-24T04:49:35Z) - Stochastic Control through Approximate Bayesian Input Inference [23.65155934960922]
不確実性下での最適制御は、最適化問題のためのトラクタブルソリューションの作成が困難であるため、制御の一般的な課題です。
制御問題を入力推定の1つとすることで、高度な近似推論技術を用いて統計近似を原理的かつ実用的な方法で処理することができる。
論文 参考訳(メタデータ) (2021-05-17T09:27:12Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。