論文の概要: Closing the Closed-Loop Distribution Shift in Safe Imitation Learning
- arxiv url: http://arxiv.org/abs/2102.09161v1
- Date: Thu, 18 Feb 2021 05:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:08:57.946968
- Title: Closing the Closed-Loop Distribution Shift in Safe Imitation Learning
- Title(参考訳): 安全模倣学習における閉ループ分布シフトの閉鎖
- Authors: Stephen Tu and Alexander Robey and Nikolai Matni
- Abstract要約: 模倣学習問題において,安全な最適化に基づく制御戦略を専門家として扱う。
我々は、実行時に安価に評価でき、専門家と同じ安全保証を確実に満足する学習されたポリシーを訓練する。
- 参考スコア(独自算出の注目度): 80.05727171757454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonly used optimization-based control strategies such as model-predictive
and control Lyapunov/barrier function based controllers often enjoy provable
stability, robustness, and safety properties. However, implementing such
approaches requires solving optimization problems online at high-frequencies,
which may not be possible on resource-constrained commodity hardware.
Furthermore, how to extend the safety guarantees of such approaches to systems
that use rich perceptual sensing modalities, such as cameras, remains unclear.
In this paper, we address this gap by treating safe optimization-based control
strategies as experts in an imitation learning problem, and train a learned
policy that can be cheaply evaluated at run-time and that provably satisfies
the same safety guarantees as the expert. In particular, we propose Constrained
Mixing Iterative Learning (CMILe), a novel on-policy robust imitation learning
algorithm that integrates ideas from stochastic mixing iterative learning,
constrained policy optimization, and nonlinear robust control. Our approach
allows us to control errors introduced by both the learning task of imitating
an expert and by the distribution shift inherent to deviating from the original
expert policy. The value of using tools from nonlinear robust control to impose
stability constraints on learned policies is shown through sample-complexity
bounds that are independent of the task time-horizon. We demonstrate the
usefulness of CMILe through extensive experiments, including training a
provably safe perception-based controller using a state-feedback-based expert.
- Abstract(参考訳): モデル予測や制御のような最適化に基づく制御戦略は、しばしば証明可能な安定性、堅牢性、安全性を享受する。
しかし、そのような手法を実装するには、リソース制約のあるコモディティハードウェアでは不可能な、高頻度でオンライン最適化問題を解く必要がある。
さらに、カメラなどのリッチな知覚センシング方式を使用するシステムに対して、このようなアプローチの安全性保証を拡張する方法は不明である。
本稿では、模倣学習問題において、安全最適化に基づく制御戦略を専門家として扱い、実行時に安価に評価でき、専門家と同じ安全性保証を確実に満足する学習方針を訓練することで、このギャップに対処する。
特に,確率的混合反復学習,制約付きポリシー最適化,非線形ロバスト制御からアイデアを融合した,新しいオンポリシーロバストな模倣学習アルゴリズムである制約付き混合反復学習(cmile)を提案する。
提案手法では,専門家を模倣する学習課題と,元々の専門家方針から逸脱した分布シフトの両方によってもたらされる誤りを制御できる。
非線形ロバスト制御から学習ポリシーに安定性制約を課すためのツールの使用価値は,タスク時間ホライゾンに依存しないサンプル複雑境界によって示される。
我々は,状態フィードバック型エキスパートを用いて,確実に安全な知覚ベースのコントローラをトレーニングすることを含む,広範囲な実験を通じてcmileの有用性を示す。
関連論文リスト
- Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Adaptive control of a mechatronic system using constrained residual
reinforcement learning [0.0]
本研究では,不確実な環境下での従来のコントローラの性能向上のための,シンプルで実用的で直感的な手法を提案する。
本手法は, 産業用モーションコントロールにおける従来の制御器が, 異なる動作条件に対応するために適応性よりも頑健であることを示す。
論文 参考訳(メタデータ) (2021-10-06T08:13:05Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z) - On Imitation Learning of Linear Control Policies: Enforcing Stability
and Robustness Constraints via LMI Conditions [3.296303220677533]
線形ポリシーの模倣学習を制約付き最適化問題として定式化する。
線形行列不等式 (lmi) の制約を適合ポリシーに適用することで閉ループ安定性とロバスト性が保証できることを示す。
論文 参考訳(メタデータ) (2021-03-24T02:43:03Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Reinforcement Learning Control of Constrained Dynamic Systems with
Uniformly Ultimate Boundedness Stability Guarantee [12.368097742148128]
強化学習(RL)は複雑な非線形制御問題に対して有望である。
データベースの学習アプローチは、安定性を保証していないことで悪名高い。
本稿では,古典的なリャプノフ法を用いて,データのみに基づいて一様極大境界性安定性(UUB)を解析する。
論文 参考訳(メタデータ) (2020-11-13T12:41:56Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。