論文の概要: Imitation Learning for Robust and Safe Real-time Motion Planning: A
Contraction Theory Approach
- arxiv url: http://arxiv.org/abs/2102.12668v1
- Date: Thu, 25 Feb 2021 03:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:53:11.277232
- Title: Imitation Learning for Robust and Safe Real-time Motion Planning: A
Contraction Theory Approach
- Title(参考訳): ロバストかつ安全なリアルタイムモーション計画のための模擬学習:収縮理論のアプローチ
- Authors: Hiroyasu Tsukamoto and Soon-Jo Chung
- Abstract要約: LAG-ROSは、境界外乱によって乱される安全臨界非線形システムのリアルタイムロバストな動作計画アルゴリズムである。
LAG-ROSはリアルタイム計算のためのより速い実行の速度のより高い制御性能そしてタスクの成功率を達成します。
- 参考スコア(独自算出の注目度): 9.35511513240868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Learning-based Autonomous Guidance with Robustness,
Optimality, and Safety guarantees (LAG-ROS), a real-time robust motion planning
algorithm for safety-critical nonlinear systems perturbed by bounded
disturbances. The LAG-ROS method consists of three phases: 1) Control Lyapunov
Function (CLF) construction via contraction theory; 2) imitation learning of
the CLF-based robust feedback motion planner; and 3) its real-time and
decentralized implementation with a learning-based model predictive safety
filter. For the CLF, we exploit a neural-network-based method of Neural
Contraction Metrics (NCMs), which provides a differential Lyapunov function to
minimize an upper bound of the steady-state Euclidean distance between
perturbed and unperturbed system trajectories. The NCM ensures the perturbed
state to stay in bounded error tubes around given desired trajectories, where
we sample training data for imitation learning of the NCM-CLF-based robust
centralized motion planner. Using local observations in training also enables
its decentralized implementation. Simulation results for perturbed nonlinear
systems show that the LAG-ROS achieves higher control performance and task
success rate with faster execution speed for real-time computation, when
compared with the existing real-time robust MPC and learning-based feedforward
motion planners.
- Abstract(参考訳): 本論文では,境界的障害に悩まされる安全クリティカルな非線形システムのリアルタイムロバストな動作計画アルゴリズムであるLAG-ROS(Learning-based Autonomous Guidance with Robustness, Optimality, and Safety guarantees)について述べる。
LAG-ROS法は,1)契約理論による制御リャプノフ関数(CLF)構築,2)CLFに基づく頑健なフィードバック運動プランナの模倣学習,3)学習に基づくモデル予測安全フィルタによるリアルタイム・分散実装の3段階からなる。
clfでは,ニューラルネットワークを用いた神経収縮計測法(ncms)を応用し,摂動と非摂動系軌跡間の定常ユークリッド距離の上限を最小化する微分リアプノフ関数を提案する。
NCMは、摂動状態が所望の軌道上の有界誤差管に留まることを保証し、NCM-CLFをベースとした頑健な集中型運動プランナの模倣学習のためのトレーニングデータをサンプリングする。
トレーニングにローカルオブザーバを使用することで、分散実装も可能になります。
摂動非線形システムのシミュレーション結果から,既存の実時間ロバストなMPCや学習ベースフィードフォワード動作プランナと比較して,LAG-ROSはより高速な実行速度で制御性能とタスク成功率を達成することが示された。
関連論文リスト
- Learning to Boost the Performance of Stable Nonlinear Systems [0.0]
クローズドループ安定性保証による性能ブースティング問題に対処する。
本手法は,安定な非線形システムのための性能ブースティング制御器のニューラルネットワーククラスを任意に学習することを可能にする。
論文 参考訳(メタデータ) (2024-05-01T21:11:29Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Accelerated Policy Learning with Parallel Differentiable Simulation [59.665651562534755]
微分可能シミュレータと新しいポリシー学習アルゴリズム(SHAC)を提案する。
本アルゴリズムは,スムーズな批判機能により局所最小化の問題を軽減する。
現状のRLと微分可能なシミュレーションベースアルゴリズムと比較して,サンプル効率と壁面時間を大幅に改善した。
論文 参考訳(メタデータ) (2022-04-14T17:46:26Z) - Guaranteed Trajectory Tracking under Learned Dynamics with Contraction Metrics and Disturbance Estimation [5.147919654191323]
本稿では,制約指標と外乱推定に基づく軌道中心学習制御へのアプローチを提案する。
提案するフレームワークは、平面四重項の例で検証される。
論文 参考訳(メタデータ) (2021-12-15T15:57:33Z) - A Theoretical Overview of Neural Contraction Metrics for Learning-based
Control with Guaranteed Stability [7.963506386866862]
本稿では,最適縮尺と対応する微分リャプノフ関数のニューラルネットワークモデルを提案する。
そのイノベーションは、学習ベースの制御フレームワークに対して、正式な堅牢性を保証することである。
論文 参考訳(メタデータ) (2021-10-02T00:28:49Z) - Trajectory Planning for Autonomous Vehicles Using Hierarchical
Reinforcement Learning [21.500697097095408]
不確実かつ動的条件下で安全な軌道を計画することは、自律運転問題を著しく複雑にする。
RRT(Rapidly Exploring Random Trees)のような現在のサンプリングベース手法は、高い計算コストのため、この問題には理想的ではない。
軌道計画のための階層型強化学習構造とPID(Proportional-Integral-Derivative)コントローラを提案する。
論文 参考訳(メタデータ) (2020-11-09T20:49:54Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。