論文の概要: Stein Variational Model Predictive Control
- arxiv url: http://arxiv.org/abs/2011.07641v4
- Date: Mon, 12 Apr 2021 16:20:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:30:57.914395
- Title: Stein Variational Model Predictive Control
- Title(参考訳): スタイン変分モデル予測制御
- Authors: Alexander Lambert, Adam Fishman, Dieter Fox, Byron Boots, Fabio Ramos
- Abstract要約: 不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
- 参考スコア(独自算出の注目度): 130.60527864489168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision making under uncertainty is critical to real-world, autonomous
systems. Model Predictive Control (MPC) methods have demonstrated favorable
performance in practice, but remain limited when dealing with complex
probability distributions. In this paper, we propose a generalization of MPC
that represents a multitude of solutions as posterior distributions. By casting
MPC as a Bayesian inference problem, we employ variational methods for
posterior computation, naturally encoding the complexity and multi-modality of
the decision making problem. We present a Stein variational gradient descent
method to estimate the posterior directly over control parameters, given a cost
function and observed state trajectories. We show that this framework leads to
successful planning in challenging, non-convex optimal control problems.
- Abstract(参考訳): 不確実性の下での意思決定は、現実の自律システムにとって重要である。
モデル予測制御(MPC)法は、実際は良好な性能を示すが、複雑な確率分布を扱う場合に制限される。
本稿では,複数の解を後方分布として表現するmpcの一般化を提案する。
ベイズ推論問題として MPC をキャストすることにより, 決定問題の複雑さと多様性を自然に符号化し, 後続計算に変分法を用いる。
コスト関数と観測された状態軌跡を与えられた後続を制御パラメータ上で直接推定するスタイン変分勾配降下法を提案する。
我々は,この枠組みが,非凸最適制御問題における計画の成功につながることを示す。
関連論文リスト
- POMDP inference and robust solution via deep reinforcement learning: An
application to railway optimal maintenance [0.7046417074932257]
深部RLを用いたPMDPの推論とロバストな解法の組み合わせを提案する。
まず、すべての遷移モデルと観測モデルパラメータは、隠れマルコフモデルのマルコフ・チェイン・モンテ・カルロサンプリングによって共同で推論される。
パラメータが不確実なPOMDPは、パラメータ分布を領域ランダム化によって解に組み込んだ深部RL手法によって解決される。
論文 参考訳(メタデータ) (2023-07-16T15:44:58Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Multistage Stochastic Optimization via Kernels [3.7565501074323224]
我々は,多段階最適化問題に対する非パラメトリック,データ駆動,トラクタブルアプローチを開発した。
本稿では,提案手法が最適に近い平均性能で決定ルールを生成することを示す。
論文 参考訳(メタデータ) (2023-03-11T23:19:32Z) - Sample Complexity of Robust Reinforcement Learning with a Generative
Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。
我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。
この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文 参考訳(メタデータ) (2021-12-02T18:55:51Z) - A Variational Inference Approach to Inverse Problems with Gamma
Hyperpriors [60.489902135153415]
本稿では,ガンマハイパープライヤを用いた階層的逆問題に対する変分反復交替方式を提案する。
提案した変分推論手法は正確な再構成を行い、意味のある不確実な定量化を提供し、実装が容易である。
論文 参考訳(メタデータ) (2021-11-26T06:33:29Z) - Sequential Stochastic Optimization in Separable Learning Environments [0.0]
我々は,様々な種類の教師付き学習概念を包含できる,不確実性の下での逐次的意思決定問題について考察する。
これらの問題は完全に観察された状態プロセスと部分的に観察された変調プロセスを持ち、状態プロセスは観察プロセスを通してのみ変調プロセスによって影響を受ける。
我々は、この幅広い問題のクラスを部分的に観察されたマルコフ決定過程(POMDP)としてモデル化する。
論文 参考訳(メタデータ) (2021-08-21T21:29:04Z) - Combining Gaussian processes and polynomial chaos expansions for
stochastic nonlinear model predictive control [0.0]
最適制御問題の時間不変不確かさを明示的に考慮する新しいアルゴリズムを提案する。
本稿では, 非線形変換の平均および分散推定値を得るために, この組み合わせを効率的に利用することを提案する。
最適制御問題に対する確率的目標と確率的制約の両方を定式化する方法を示す。
論文 参考訳(メタデータ) (2021-03-09T14:25:08Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Scalable Control Variates for Monte Carlo Methods via Stochastic
Optimization [62.47170258504037]
本稿では,制御,カーネル,ニューラルネットワークを用いた既存のアプローチを包含し,一般化するフレームワークを提案する。
新たな理論的結果は、達成可能な分散還元に関する洞察を与えるために提示され、ベイズ推定への応用を含む経験的評価が支持される。
論文 参考訳(メタデータ) (2020-06-12T22:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。