論文の概要: On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions
- arxiv url: http://arxiv.org/abs/2103.12945v1
- Date: Wed, 24 Mar 2021 02:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 13:46:19.125604
- Title: On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions
- Title(参考訳): 線形制御ポリシの模倣学習について:LMI条件による安定性とロバスト性制約の強化
- Authors: Aaron Havens and Bin Hu
- Abstract要約: 線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
- 参考スコア(独自算出の注目度): 3.296303220677533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When applying imitation learning techniques to fit a policy from expert
demonstrations, one can take advantage of prior stability/robustness
assumptions on the expert's policy and incorporate such control-theoretic prior
knowledge explicitly into the learning process. In this paper, we formulate the
imitation learning of linear policies as a constrained optimization problem,
and present efficient methods which can be used to enforce stability and
robustness constraints during the learning processes. Specifically, we show
that one can guarantee the closed-loop stability and robustness by posing
linear matrix inequality (LMI) constraints on the fitted policy. Then both the
projected gradient descent method and the alternating direction method of
multipliers (ADMM) method can be applied to solve the resulting constrained
policy fitting problem. Finally, we provide numerical results to demonstrate
the effectiveness of our methods in producing linear polices with various
stability and robustness guarantees.
- Abstract(参考訳): 専門家の実証からポリシーに適合させるために模倣学習技術を適用する場合、専門家の方針に対する事前の安定性/損耗性の仮定を活用でき、そのような制御理論的な事前知識を学習プロセスに明示的に組み込むことができる。
本稿では,線形ポリシーの模倣学習を制約付き最適化問題として定式化し,学習過程における安定性と頑健さの制約を強制する効率的な手法を提案する。
具体的には, 線形行列不等式 (LMI) 制約を適合ポリシーに課すことにより, 閉ループ安定性とロバスト性を保証できることを示す。
次に, 予測勾配降下法と乗算器法(ADMM)の交互方向法の両方を適用し, 結果として生じる制約付きポリシー適合問題を解く。
最後に, 種々の安定性と堅牢性を保証する線形警察の製作における手法の有効性を示す数値的な結果を提供する。
関連論文リスト
- SelfBC: Self Behavior Cloning for Offline Reinforcement Learning [14.573290839055316]
本研究では,これまでに学習したポリシーの指数的移動平均によって生成されたサンプルに対して,学習したポリシーを制約する新しい動的ポリシー制約を提案する。
我々のアプローチは、ほぼ単調に改善された参照ポリシーをもたらす。
論文 参考訳(メタデータ) (2024-08-04T23:23:48Z) - Synthesizing Stable Reduced-Order Visuomotor Policies for Nonlinear
Systems via Sums-of-Squares Optimization [28.627377507894003]
本稿では,非線形システムの制御観測のためのノイズフィードバック,低次出力-制御-パーセプションポリシを提案する。
画像からのこれらのシステムが確実に安定できない場合、我々のアプローチは安定性の保証を提供する。
論文 参考訳(メタデータ) (2023-04-24T19:34:09Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Bellman Residual Orthogonalization for Offline Reinforcement Learning [53.17258888552998]
我々はベルマン方程式を近似した新しい強化学習原理を導入し、その妥当性をテスト関数空間にのみ適用する。
我々は、この原則を利用して、政策外の評価のための信頼区間を導出するとともに、所定の政策クラス内の政策を最適化する。
論文 参考訳(メタデータ) (2022-03-24T01:04:17Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - Imitation Learning of Stabilizing Policies for Nonlinear Systems [1.52292571922932]
線形システムやコントローラ向けに開発された手法は,平方の和を用いて容易にコントローラに拡張できることが示されている。
予測勾配降下法とアルゴリズムの交互方向法を, 安定化模倣学習問題に対して提案する。
論文 参考訳(メタデータ) (2021-09-22T17:27:19Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。