論文の概要: Probabilistic Pontryagin's Maximum Principle for Continuous-Time Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.02543v1
- Date: Thu, 03 Apr 2025 12:51:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:55:45.368178
- Title: Probabilistic Pontryagin's Maximum Principle for Continuous-Time Model-Based Reinforcement Learning
- Title(参考訳): 連続時間モデルに基づく強化学習のための確率論的ポントリャーギンの最大原理
- Authors: David Leeftink, Çağatay Yıldız, Steffen Ridderbusch, Max Hinne, Marcel van Gerven,
- Abstract要約: 平均ハミルトニアンの最小化は平均コストを最適化するために必要な最適条件であることを示す。
我々のアプローチは、学習力学で不確実なシステムを制御するための原則的で実践的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 3.6300632181659234
- License:
- Abstract: Without exact knowledge of the true system dynamics, optimal control of non-linear continuous-time systems requires careful treatment of epistemic uncertainty. In this work, we propose a probabilistic extension to Pontryagin's maximum principle by minimizing the mean Hamiltonian with respect to epistemic uncertainty. We show minimization of the mean Hamiltonian is a necessary optimality condition when optimizing the mean cost, and propose a multiple shooting numerical method scalable to large-scale probabilistic dynamical models, including ensemble neural ordinary differential equations. Comparisons against state-of-the-art methods in online and offline model-based reinforcement learning tasks show that our probabilistic Hamiltonian formulation leads to reduced trial costs in offline settings and achieves competitive performance in online scenarios. By bridging optimal control and reinforcement learning, our approach offers a principled and practical framework for controlling uncertain systems with learned dynamics.
- Abstract(参考訳): 真の系力学の正確な知識がなければ、非線形連続時間系の最適制御は、てんかんの不確かさを慎重に扱う必要がある。
本研究は, 疫学的な不確実性に関して平均ハミルトニアンを最小化することにより, ポントリャーギンの最大原理に対する確率的拡張を提案する。
平均ハミルトニアンの最小化は,平均コストを最適化する上で必要な最適条件であることを示すとともに,ニューラル常微分方程式を含む大規模確率的力学モデルにスケーラブルな複数のシューティング数値法を提案する。
オンラインおよびオフラインモデルに基づく強化学習タスクにおける最先端の手法との比較により、我々の確率的ハミルトンの定式化は、オフライン環境での試行コストを削減し、オンラインシナリオにおける競争性能を達成することを示す。
最適制御と強化学習をブリッジすることで,本手法は学習力学を用いて不確実なシステムを制御するための原則的かつ実践的な枠組みを提供する。
関連論文リスト
- Receding Hamiltonian-Informed Optimal Neural Control and State Estimation for Closed-Loop Dynamical Systems [4.05766189327054]
Hamiltonian-Informed Optimal Neural (Hion) コントローラは、動的システムのためのニューラルネットワークベースの新しいクラスである。
ヒオンコントローラは将来の状態を推定し、ポントリャーギンの原理を用いて最適制御入力を計算する。
論文 参考訳(メタデータ) (2024-11-02T16:06:29Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Learning-enhanced Nonlinear Model Predictive Control using
Knowledge-based Neural Ordinary Differential Equations and Deep Ensembles [5.650647159993238]
本研究では,知識に基づくニューラル常微分方程式(KNODE)とディープアンサンブルというディープラーニングツールを活用し,モデル予測制御(MPC)の予測精度を向上させる。
特に、KNODEモデルのアンサンブル(KNODEアンサンブル)を学習し、真のシステム力学の正確な予測を得る。
KNODEアンサンブルはより正確な予測を提供し、提案した非線形MPCフレームワークの有効性と閉ループ性能を示す。
論文 参考訳(メタデータ) (2022-11-24T23:51:18Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。