論文の概要: Globally Stable Neural Imitation Policies
- arxiv url: http://arxiv.org/abs/2403.04118v1
- Date: Thu, 7 Mar 2024 00:20:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 15:45:30.442449
- Title: Globally Stable Neural Imitation Policies
- Title(参考訳): 世界安定型ニューラルイミテーション政策
- Authors: Amin Abyaneh, Mariana Sosa Guzm\'an, Hsiu-Chin Lin
- Abstract要約: 本稿では,形式的安定性を保証するポリシを生成する模倣学習システムであるSNDSを紹介する。
リアプノフの定理に基づく安定性の表現を容易にするニューラルポリシーアーキテクチャをデプロイする。
訓練されたポリシーを現実世界のマニピュレータアームに展開することに成功しました。
- 参考スコア(独自算出の注目度): 4.357689465182184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning presents an effective approach to alleviate the
resource-intensive and time-consuming nature of policy learning from scratch in
the solution space. Even though the resulting policy can mimic expert
demonstrations reliably, it often lacks predictability in unexplored regions of
the state-space, giving rise to significant safety concerns in the face of
perturbations. To address these challenges, we introduce the Stable Neural
Dynamical System (SNDS), an imitation learning regime which produces a policy
with formal stability guarantees. We deploy a neural policy architecture that
facilitates the representation of stability based on Lyapunov theorem, and
jointly train the policy and its corresponding Lyapunov candidate to ensure
global stability. We validate our approach by conducting extensive experiments
in simulation and successfully deploying the trained policies on a real-world
manipulator arm. The experimental results demonstrate that our method overcomes
the instability, accuracy, and computational intensity problems associated with
previous imitation learning methods, making our method a promising solution for
stable policy learning in complex planning scenarios.
- Abstract(参考訳): 模倣学習は、ソリューション空間における政策学習の資源集約的で時間のかかる性質をゼロから緩和する効果的なアプローチを示す。
結果として得られた政策は専門家のデモンストレーションを確実に模倣することができるが、国家空間の未調査領域では予測可能性に欠けることが多く、摂動に直面した場合に重大な安全上の懸念が生じる。
これらの課題に対処するために,形式的安定性を保証するポリシーを生成する模倣学習システムであるSNDS(Stable Neural Dynamical System)を導入する。
我々は,lyapunovの定理に基づく安定性の表現を容易にするニューラルネットワークのポリシアーキテクチャを展開し,そのポリシとその対応するlyapunov候補を共同で訓練し,グローバル安定性を確保する。
シミュレーション実験を行い、実世界のマニピュレータアームにトレーニングされたポリシーをうまく展開することで、我々のアプローチを検証する。
提案手法は,従来の模倣学習法と関連する不安定性,正確性,計算強度の問題を克服し,複雑な計画シナリオにおける安定な政策学習に有望な解決策となることを示す。
関連論文リスト
- COIN: Chance-Constrained Imitation Learning for Uncertainty-aware
Adaptive Resource Oversubscription Policy [37.034543365623286]
不確実性が存在する場合に安全で堅牢な意思決定ポリシーを学ぶという課題に対処する。
従来の教師付き予測や予測モデルは適応ポリシーの学習には効果がない。
オンライン最適化や強化学習は、実際のシステムにデプロイすることが難しい。
論文 参考訳(メタデータ) (2024-01-13T11:43:25Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Learning Provably Stabilizing Neural Controllers for Discrete-Time
Stochastic Systems [18.349820472823055]
本稿では,SRSM(Stableizing rank Supermartingales)の概念を紹介する。
提案手法は,実証可能な安定化政策の学習に有効であることを示す。
論文 参考訳(メタデータ) (2022-10-11T09:55:07Z) - KCRL: Krasovskii-Constrained Reinforcement Learning with Guaranteed
Stability in Nonlinear Dynamical Systems [66.9461097311667]
形式的安定性を保証するモデルに基づく強化学習フレームワークを提案する。
提案手法は,特徴表現を用いて信頼区間までシステムダイナミクスを学習する。
我々は、KCRLが、基礎となる未知のシステムとの有限数の相互作用において安定化ポリシーを学ぶことが保証されていることを示す。
論文 参考訳(メタデータ) (2022-06-03T17:27:04Z) - Learning Stabilizing Policies in Stochastic Control Systems [20.045860624444494]
単一学習アルゴリズムを用いて,マーチンゲール証明書と協調してポリシーを学習し,その安定性を証明した。
本研究は, 共同最適化における事前学習の方法として, 修復と検証を成功させるためには, 何らかの形態の事前学習が必要であることを示唆する。
論文 参考訳(メタデータ) (2022-05-24T11:38:22Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Closing the Closed-Loop Distribution Shift in Safe Imitation Learning [80.05727171757454]
模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
論文 参考訳(メタデータ) (2021-02-18T05:11:41Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Improving Robustness via Risk Averse Distributional Reinforcement
Learning [13.467017642143581]
実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。
本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-01T20:03:10Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。