論文の概要: Tube-NeRF: Efficient Imitation Learning of Visuomotor Policies from MPC
using Tube-Guided Data Augmentation and NeRFs
- arxiv url: http://arxiv.org/abs/2311.14153v2
- Date: Mon, 26 Feb 2024 16:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 21:51:24.361112
- Title: Tube-NeRF: Efficient Imitation Learning of Visuomotor Policies from MPC
using Tube-Guided Data Augmentation and NeRFs
- Title(参考訳): Tube-NeRF:Tube-Guided Data AugmentationとNeRFを用いたMPCからのVisuomotor Policiesの効率的な模倣学習
- Authors: Andrea Tagliabue, Jonathan P. How
- Abstract要約: 感性学習(IL)は資源集約型モデル予測制御器(MPC)から計算効率の高い感触者ポリシーを訓練できる
本稿では,ビジョンベースのポリシーを効率的に学習するデータ拡張(DA)戦略を提案する。
実演効率は80倍に向上し,現行のIL法に比べてトレーニング時間を50%削減した。
- 参考スコア(独自算出の注目度): 42.220568722735095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning (IL) can train computationally-efficient sensorimotor
policies from a resource-intensive Model Predictive Controller (MPC), but it
often requires many samples, leading to long training times or limited
robustness. To address these issues, we combine IL with a variant of robust MPC
that accounts for process and sensing uncertainties, and we design a data
augmentation (DA) strategy that enables efficient learning of vision-based
policies. The proposed DA method, named Tube-NeRF, leverages Neural Radiance
Fields (NeRFs) to generate novel synthetic images, and uses properties of the
robust MPC (the tube) to select relevant views and to efficiently compute the
corresponding actions. We tailor our approach to the task of localization and
trajectory tracking on a multirotor, by learning a visuomotor policy that
generates control actions using images from the onboard camera as only source
of horizontal position. Numerical evaluations show 80-fold increase in
demonstration efficiency and a 50% reduction in training time over current IL
methods. Additionally, our policies successfully transfer to a real multirotor,
achieving low tracking errors despite large disturbances, with an onboard
inference time of only 1.5 ms.
Video: https://youtu.be/_W5z33ZK1m4
- Abstract(参考訳): 模倣学習(il)は、リソース集約型モデル予測コントローラ(mpc)から計算効率の高いセンサモジュレータポリシをトレーニングできるが、多くのサンプルを必要とするため、長いトレーニング時間や限定的な堅牢性が求められる。
これらの問題に対処するために,il と不確実性を考慮したロバストな mpc の変種を組み合わせることで,視覚に基づくポリシの効率的な学習を可能にするデータ拡張 (da) 戦略を設計する。
提案手法はneural radiance field (nerfs) を利用して新しい合成画像を生成し、ロバストなmpc(チューブ)の特性を利用して関連するビューを選択し、対応するアクションを効率的に計算する。
搭載カメラからの映像を水平位置のみのソースとして制御動作を生成するビジュモータポリシーを学習することにより、マルチロータ上での局所化と軌道追跡のタスクに対する我々のアプローチを調整する。
数値評価の結果, 実演効率は80倍に向上し, トレーニング時間も50%減少した。
さらに、当社のポリシーは実マルチロータへの移行に成功し、大きな障害にもかかわらず追跡エラーの少ない1.5msのオンボード推論時間を実現した。
関連論文リスト
- SHIRE: Enhancing Sample Efficiency using Human Intuition in REinforcement Learning [11.304750795377657]
確率的図形モデル(PGM)を用いた人間の直観を符号化するフレームワークShireを提案する。
ShiREは、評価対象環境の25~78%のサンプル効率を、無視可能なオーバーヘッドコストで達成します。
論文 参考訳(メタデータ) (2024-09-16T04:46:22Z) - Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Output Feedback Tube MPC-Guided Data Augmentation for Robust, Efficient
Sensorimotor Policy Learning [49.05174527668836]
シミュレーション学習(IL)は、計算コストのかかるモデルベースセンシングと制御アルゴリズムによって提供されるデモから、計算効率のよいセンセータポリシーを生成することができる。
本研究では,ILと出力フィードバック頑健な管モデル予測コントローラを組み合わせることで,実演とデータ拡張戦略を併用し,ニューラルネットワークに基づくセンサモジュレータポリシーを効率的に学習する。
提案手法は,従来のIL法と比較して,実演効率が2桁向上した1つの実演から,ロバストなビズモータポリシーを学習できることを数値的に示す。
論文 参考訳(メタデータ) (2022-10-18T19:59:17Z) - Robust, High-Rate Trajectory Tracking on Insect-Scale Soft-Actuated
Aerial Robots with Deep-Learned Tube MPC [0.0]
サブグラムMAV (0.7 グラム) であるMIT SoftFly 上でのアジャイルで効率的な軌道追跡手法を提案する。
我々の戦略は、適応型姿勢制御器と、軌跡追跡堅牢管モデル予測制御器(RTMPC)を模倣する訓練されたニューラルネットワークポリシーを組み合わせたカスケード制御方式を用いている。
我々は,本手法を実験的に評価し,より困難な操作でもルート平均角誤差を1.8cm以下に抑え,従来の作業に比べて最大位置誤差を60%低減し,大きな外乱に対する堅牢性を実証した。
論文 参考訳(メタデータ) (2022-09-20T21:30:16Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文 参考訳(メタデータ) (2020-10-16T08:58:24Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。