論文の概要: Optimal Control of Probabilistic Dynamics Models via Mean Hamiltonian Minimization
- arxiv url: http://arxiv.org/abs/2504.02543v3
- Date: Tue, 02 Sep 2025 11:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 17:24:09.128206
- Title: Optimal Control of Probabilistic Dynamics Models via Mean Hamiltonian Minimization
- Title(参考訳): 平均ハミルトニアン最小化による確率力学モデルの最適制御
- Authors: David Leeftink, Çağatay Yıldız, Steffen Ridderbusch, Max Hinne, Marcel van Gerven,
- Abstract要約: 我々はポントリャーギン最大原理の確率論的解釈を学習力学モデルによる最適制御の挑戦に翻訳する。
我々の枠組みは、系力学上の後続分布に関して平均ハミルトン分布を最小化することにより、不確実性の原則的処理を提供する。
最適制御と強化学習をブリッジすることで,本手法は学習力学を用いて不確実なシステムを制御するための原則的かつ実践的な枠組みを提供する。
- 参考スコア(独自算出の注目度): 1.1992579325061068
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Without exact knowledge of the true system dynamics, optimal control of non-linear continuous-time systems requires careful treatment under epistemic uncertainty. In this work, we translate a probabilistic interpretation of the Pontryagin maximum principle to the challenge of optimal control with learned probabilistic dynamics models. Our framework provides a principled treatment of epistemic uncertainty by minimizing the mean Hamiltonian with respect to a posterior distribution over the system dynamics. We propose a multiple shooting numerical method that leverages mean Hamiltonian minimization and is scalable to large-scale probabilistic dynamics models, including ensemble neural ordinary differential equations. Comparisons against other baselines in online and offline model-based reinforcement learning tasks show that our probabilistic Hamiltonian approach leads to reduced trial costs in offline settings and achieves competitive performance in online scenarios. By bridging optimal control and reinforcement learning, our approach offers a principled and practical framework for controlling uncertain systems with learned dynamics.
- Abstract(参考訳): 真の系力学の正確な知識がなければ、非線形連続時間系の最適制御は、疫学的な不確実性の下で慎重に扱う必要がある。
本研究では、ポントリャーギン最大原理の確率論的解釈を学習確率力学モデルによる最適制御の挑戦に翻訳する。
我々の枠組みは, システム力学上の後部分布に関して平均ハミルトン分布を最小化することにより, 疫学的不確実性の原則的処理を提供する。
平均ハミルトニアン最小化を生かし、ニューラル常微分方程式を含む大規模確率力学モデルにスケーラブルな多重シューティング数値法を提案する。
オンラインおよびオフラインモデルに基づく強化学習タスクにおける他のベースラインと比較すると、我々の確率的ハミルトンアプローチは、オフライン環境での試行コストを削減し、オンラインシナリオにおける競合的なパフォーマンスを達成する。
最適制御と強化学習をブリッジすることで,本手法は学習力学を用いて不確実なシステムを制御するための原則的かつ実践的な枠組みを提供する。
関連論文リスト
- Certified Neural Approximations of Nonlinear Dynamics [52.79163248326912]
安全クリティカルな文脈では、神経近似の使用は、基礎となるシステムとの密接性に公式な境界を必要とする。
本稿では,認証された一階述語モデルに基づく新しい,適応的で並列化可能な検証手法を提案する。
論文 参考訳(メタデータ) (2025-05-21T13:22:20Z) - Receding Hamiltonian-Informed Optimal Neural Control and State Estimation for Closed-Loop Dynamical Systems [4.05766189327054]
Hamiltonian-Informed Optimal Neural (Hion) コントローラは、動的システムのためのニューラルネットワークベースの新しいクラスである。
ヒオンコントローラは将来の状態を推定し、ポントリャーギンの原理を用いて最適制御入力を計算する。
論文 参考訳(メタデータ) (2024-11-02T16:06:29Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Adaptive Robust Model Predictive Control via Uncertainty Cancellation [25.736296938185074]
本稿では,動的に重要な不確かさを補う学習に基づく頑健な予測制御アルゴリズムを提案する。
我々は、一定の等価な「推定とキャンセル」制御法に着想を得た、非線形フィードバックポリシーのクラスを最適化する。
論文 参考訳(メタデータ) (2022-12-02T18:54:23Z) - Learning-enhanced Nonlinear Model Predictive Control using
Knowledge-based Neural Ordinary Differential Equations and Deep Ensembles [5.650647159993238]
本研究では,知識に基づくニューラル常微分方程式(KNODE)とディープアンサンブルというディープラーニングツールを活用し,モデル予測制御(MPC)の予測精度を向上させる。
特に、KNODEモデルのアンサンブル(KNODEアンサンブル)を学習し、真のシステム力学の正確な予測を得る。
KNODEアンサンブルはより正確な予測を提供し、提案した非線形MPCフレームワークの有効性と閉ループ性能を示す。
論文 参考訳(メタデータ) (2022-11-24T23:51:18Z) - Introduction to Online Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Annealing Optimization for Progressive Learning with Stochastic
Approximation [0.0]
計算資源が限られているアプリケーションのニーズを満たすために設計された学習モデルを導入する。
我々は,オンラインな勾配近似アルゴリズムとして定式化されたオンラインプロトタイプベースの学習アルゴリズムを開発した。
学習モデルは、教師なし、教師なし、強化学習に使用される、解釈可能で、徐々に成長する競争的ニューラルネットワークモデルと見なすことができる。
論文 参考訳(メタデータ) (2022-09-06T21:31:01Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Adaptive Robust Model Predictive Control with Matched and Unmatched
Uncertainty [28.10549712956161]
離散時間系のダイナミクスにおける大きな不確実性を扱うことができる学習ベースの堅牢な予測制御アルゴリズムを提案する。
既存の学習に基づく予測制御アルゴリズムが大規模な不確実性が存在する場合の安全性を確保することができず、性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-16T17:47:02Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。