論文の概要: SIT-LMPC: Safe Information-Theoretic Learning Model Predictive Control for Iterative Tasks
- arxiv url: http://arxiv.org/abs/2602.16187v1
- Date: Wed, 18 Feb 2026 05:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.515228
- Title: SIT-LMPC: Safe Information-Theoretic Learning Model Predictive Control for Iterative Tasks
- Title(参考訳): SIT-LMPC:反復作業に対する安全な情報理論学習モデル予測制御
- Authors: Zirui Zang, Ahmad Amine, Nick-Marios T. Kokolakis, Truong X. Nghiem, Ugo Rosolia, Rahul Mangharam,
- Abstract要約: 本稿では,反復的なタスクに対する安全な情報理論学習モデル予測制御アルゴリズムを提案する。
最適性のバランスを保ちつつ安全性を確保するために適応ペナルティ法を開発した。
本稿では,SIT-LMPCがシステムの制約を十分に満たしつつ,システム性能を反復的に改善することを示す。
- 参考スコア(独自算出の注目度): 2.661015608942385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots executing iterative tasks in complex, uncertain environments require control strategies that balance robustness, safety, and high performance. This paper introduces a safe information-theoretic learning model predictive control (SIT-LMPC) algorithm for iterative tasks. Specifically, we design an iterative control framework based on an information-theoretic model predictive control algorithm to address a constrained infinite-horizon optimal control problem for discrete-time nonlinear stochastic systems. An adaptive penalty method is developed to ensure safety while balancing optimality. Trajectories from previous iterations are utilized to learn a value function using normalizing flows, which enables richer uncertainty modeling compared to Gaussian priors. SIT-LMPC is designed for highly parallel execution on graphics processing units, allowing efficient real-time optimization. Benchmark simulations and hardware experiments demonstrate that SIT-LMPC iteratively improves system performance while robustly satisfying system constraints.
- Abstract(参考訳): 複雑で不確実な環境で反復的なタスクを実行するロボットは、堅牢性、安全性、ハイパフォーマンスのバランスをとる制御戦略を必要とする。
本稿では,反復的なタスクに対する安全な情報理論学習モデル予測制御(SIT-LMPC)アルゴリズムを提案する。
具体的には、離散時間非線形確率系に対する制約付き無限水平最適制御問題に対処するために、情報理論モデル予測制御アルゴリズムに基づく反復制御フレームワークを設計する。
最適性のバランスを保ちつつ安全性を確保するために適応ペナルティ法を開発した。
従来の反復の軌跡を用いて正規化フローを用いて値関数を学習し、ガウスの先行よりもよりリッチな不確実性モデリングを可能にする。
SIT-LMPCはグラフィックス処理ユニット上での並列実行のために設計されており、効率的なリアルタイム最適化を可能にする。
ベンチマークシミュレーションとハードウェア実験により、SIT-LMPCはシステムの制約を十分に満たしつつ、システム性能を反復的に改善することを示した。
関連論文リスト
- Deep Reinforcement Learning Optimization for Uncertain Nonlinear Systems via Event-Triggered Robust Adaptive Dynamic Programming [0.3848364262836075]
本研究では,Reinforcement Learning(RL)駆動のコントローラと外乱回避型拡張状態オブザーバ(ESO)を結合した統合制御アーキテクチャを提案する。
ESOは、システム状態とラップされた乱をリアルタイムで推定するために利用され、効果的な乱れ補償の基礎となる。
論文 参考訳(メタデータ) (2025-12-05T22:52:22Z) - Neural Horizon Model Predictive Control -- Increasing Computational Efficiency with Neural Networks [0.0]
予測制御をモデル化するための機械学習支援手法を提案する。
安全保証を維持しつつ,問題地平線の一部を近似することを提案する。
提案手法は,迅速な制御応答を必要とするアプリケーションを含む,幅広いアプリケーションに適用可能である。
論文 参考訳(メタデータ) (2024-08-19T08:13:37Z) - Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。