論文の概要: Learning Model Predictive Controllers with Real-Time Attention for
Real-World Navigation
- arxiv url: http://arxiv.org/abs/2209.10780v1
- Date: Thu, 22 Sep 2022 04:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:57:16.696042
- Title: Learning Model Predictive Controllers with Real-Time Attention for
Real-World Navigation
- Title(参考訳): 実世界ナビゲーションのためのリアルタイム注意を伴う学習モデル予測コントローラ
- Authors: Xuesu Xiao, Tingnan Zhang, Krzysztof Choromanski, Edward Lee, Anthony
Francis, Jake Varley, Stephen Tu, Sumeet Singh, Peng Xu, Fei Xia, Sven Mikael
Persson, Dmitry Kalashnikov, Leila Takayama, Roy Frostig, Jie Tan, Carolina
Parada, Vikas Sindhwani
- Abstract要約: 本稿では,模擬学習の利点とシステム制約の頑健な処理を併用した,暗黙的な制御ポリシーの新たなクラスを提案する。
Performer-MPCと呼ばれる我々の手法は、Performerが提供する視覚コンテキストの埋め込みによってパラメータ化された学習コスト関数を使用する。
標準的なMPCポリシーと比較して、Performer-MPCは、乱雑な環境で到達した目標を40%以上達成し、人間の周りを移動する際の社会的指標を65%以上向上させる。
- 参考スコア(独自算出の注目度): 34.86856430694435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite decades of research, existing navigation systems still face
real-world challenges when deployed in the wild, e.g., in cluttered home
environments or in human-occupied public spaces. To address this, we present a
new class of implicit control policies combining the benefits of imitation
learning with the robust handling of system constraints from Model Predictive
Control (MPC). Our approach, called Performer-MPC, uses a learned cost function
parameterized by vision context embeddings provided by Performers -- a low-rank
implicit-attention Transformer. We jointly train the cost function and
construct the controller relying on it, effectively solving end-to-end the
corresponding bi-level optimization problem. We show that the resulting policy
improves standard MPC performance by leveraging a few expert demonstrations of
the desired navigation behavior in different challenging real-world scenarios.
Compared with a standard MPC policy, Performer-MPC achieves >40% better goal
reached in cluttered environments and >65% better on social metrics when
navigating around humans.
- Abstract(参考訳): 何十年にもわたる研究にもかかわらず、既存のナビゲーションシステムは、乱雑な家庭環境や人里離れた公共空間などにおいて、現実世界の課題に直面している。
そこで本研究では,模擬学習の利点とモデル予測制御(MPC)によるシステム制約の頑健な処理を組み合わせた,暗黙的な制御ポリシーのクラスを提案する。
performer-mpcと呼ばれるこのアプローチでは、視覚コンテキスト埋め込みによってパラメータ化された学習コスト関数を使用する。
我々はコスト関数を共同で訓練し、それに依存するコントローラを構築し、対応する双方向最適化問題を効果的に解決する。
その結果,実世界の異なるシナリオにおいて,望ましいナビゲーション行動のエキスパート・デモをいくつか活用することにより,mpcの標準性能が向上することを示す。
標準的なMPCポリシーと比較して、Performer-MPCは乱雑な環境で達成した目標を40%以上達成し、人間の周りを移動する際の社会的指標を65%以上向上させる。
関連論文リスト
- Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Reinforcement Learning with Model Predictive Control for Highway Ramp Metering [14.389086937116582]
この研究は、交通フロー管理を強化するためのモデルベースと学習ベースの戦略の相乗効果について考察する。
制御問題は、適切なステージコスト関数を作成することにより、RLタスクとして定式化される。
RLアルゴリズムの関数近似として MPC 最適問題を利用する MPC ベースの RL アプローチを提案し,オンランプの効率的な制御について検討した。
論文 参考訳(メタデータ) (2023-11-15T09:50:54Z) - GP-guided MPPI for Efficient Navigation in Complex Unknown Cluttered
Environments [2.982218441172364]
本研究では,モデル予測パスインターガル(MPPI)と局所知覚モデルを統合するオンライン学習ベースの制御戦略であるGP-MPPIを提案する。
我々は,2次元自律ナビゲーションタスクのシミュレーションおよび実世界の実験を通じて,提案した制御戦略の効率性とロバスト性を検証する。
論文 参考訳(メタデータ) (2023-07-08T17:33:20Z) - GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-30T15:15:30Z) - Efficient Deep Learning of Robust, Adaptive Policies using Tube
MPC-Guided Data Augmentation [42.66792060626531]
既存のロバストで適応的なコントローラは、オンライン上の重い計算を犠牲にして、素晴らしいパフォーマンスを達成することができる。
我々は、MPCからの堅牢なポリシー学習のための既存の効率的なImitation Learning(IL)アルゴリズムを拡張し、挑戦的なモデル/環境の不確実性に対応するポリシーを学習する能力を拡張した。
論文 参考訳(メタデータ) (2023-03-28T02:22:47Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Imitation Learning from MPC for Quadrupedal Multi-Gait Control [63.617157490920505]
本稿では,歩行ロボットの複数の歩行を模倣する単一ポリシーを学習する学習アルゴリズムを提案する。
モデル予測制御によって導かれる模擬学習のアプローチであるMPC-Netを使用し、拡張します。
ハードウェアに対する我々のアプローチを検証し、学習したポリシーが教師に取って代わって複数の歩留まりを制御できることを示します。
論文 参考訳(メタデータ) (2021-03-26T08:48:53Z) - Learning High-Level Policies for Model Predictive Control [54.00297896763184]
Model Predictive Control (MPC)は、ロボット制御タスクに対する堅牢なソリューションを提供する。
ニューラルネットワークの高レベルポリシーを学習するための自己教師付き学習アルゴリズムを提案する。
提案手法は, 標準的なMPCでは困難な状況に対処できることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:12:34Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。