論文の概要: On Convex Data-Driven Inverse Optimal Control for Nonlinear, Non-stationary and Stochastic Systems
- arxiv url: http://arxiv.org/abs/2306.13928v2
- Date: Wed, 26 Jun 2024 17:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 19:53:53.007860
- Title: On Convex Data-Driven Inverse Optimal Control for Nonlinear, Non-stationary and Stochastic Systems
- Title(参考訳): 非線形・非定常・確率系の凸データ駆動逆最適制御について
- Authors: Emiland Garrabe, Hozefa Jesawada, Carmen Del Vecchio, Giovanni Russo,
- Abstract要約: 本稿では, エージェントの動作を駆動する非定常コストの観測から, 再構成を目標とする有限水平逆制御問題について考察する。
本研究では,非定常エージェントコストの対流的な問題を解くことで,コスト最適化を実現する結果を提案する。
すべての実験が我々のアプローチの有効性を確認した。
- 参考スコア(独自算出の注目度): 0.7240153598817866
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper is concerned with a finite-horizon inverse control problem, which has the goal of reconstructing, from observations, the possibly non-convex and non-stationary cost driving the actions of an agent. In this context, we present a result enabling cost reconstruction by solving an optimization problem that is convex even when the agent cost is not and when the underlying dynamics is nonlinear, non-stationary and stochastic. To obtain this result, we also study a finite-horizon forward control problem that has randomized policies as decision variables. We turn our findings into algorithmic procedures and show the effectiveness of our approach via in-silico and hardware validations. All experiments confirm the effectiveness of our approach.
- Abstract(参考訳): 本稿では, エージェントの動作を駆動する非凸・非定常コストの観測から, 再構成を目標とする有限水平逆制御問題について考察する。
本稿では,エージェントコストが不均一で,基礎となるダイナミクスが非線形で,非定常かつ確率的な場合においても,整合性のある最適化問題を解くことにより,コスト復元を可能にする結果を示す。
この結果を得るために、決定変数としてポリシーをランダム化した有限水平前方制御問題についても検討する。
提案手法をアルゴリズムに変換し,本手法の有効性を示す。
すべての実験が我々のアプローチの有効性を確認した。
関連論文リスト
- Data-Driven Optimal Feedback Laws via Kernel Mean Embeddings [3.007066256364399]
制御拡散過程に関連するマルコフ遷移作用素を特定するためにカーネル平均埋め込み(KME)を導入する。
従来の動的プログラミング手法とは異なり、我々の手法はカーネルトリックを利用して次元の呪いを破る。
本手法の有効性を数値的な例で示し, 非線形最適制御問題を解く能力を強調した。
論文 参考訳(メタデータ) (2024-07-23T11:53:03Z) - OTClean: Data Cleaning for Conditional Independence Violations using
Optimal Transport [51.6416022358349]
sysは、条件付き独立性(CI)制約下でのデータ修復に最適な輸送理論を利用するフレームワークである。
我々はSinkhornの行列スケーリングアルゴリズムにインスパイアされた反復アルゴリズムを開発し、高次元および大規模データを効率的に処理する。
論文 参考訳(メタデータ) (2024-03-04T18:23:55Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous
Unobserved Confounders [16.193776814471768]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Rate-Optimal Online Convex Optimization in Adaptive Linear Control [0.0]
コストの逆変化による未知凸線形系の制御について考察する。
最適線形後角関数を実現するための最初の計算式を提示する。
論文 参考訳(メタデータ) (2022-06-03T07:32:11Z) - Efficient Online Linear Control with Stochastic Convex Costs and Unknown
Dynamics [0.0]
本稿では,最良安定化線形コントローラに対して,最適$sqrtT$後悔率を得る計算効率のよいアルゴリズムを提案する。
これまでの研究とは対照的に,我々のアルゴリズムは顔の不確実性パラダイムにおける最適化に基づいている。
論文 参考訳(メタデータ) (2022-03-02T15:19:20Z) - Distributionally Robust Optimization with Markovian Data [8.126833795693699]
本研究では,不確実な問題パラメータの確率分布が不明なプログラムについて検討する。
本稿では,問題の目的関数と最適解を推定するために,データ駆動型分布法を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:59:02Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - High-Dimensional Robust Mean Estimation via Gradient Descent [73.61354272612752]
一定対向分数の存在下でのロバスト平均推定の問題は勾配降下によって解けることを示す。
我々の研究は、近辺の非補題推定とロバスト統計の間の興味深い関係を確立する。
論文 参考訳(メタデータ) (2020-05-04T10:48:04Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。