論文の概要: Learning to Execute: Efficient Learning of Universal Plan-Conditioned
Policies in Robotics
- arxiv url: http://arxiv.org/abs/2111.07908v1
- Date: Mon, 15 Nov 2021 16:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 18:49:37.007795
- Title: Learning to Execute: Efficient Learning of Universal Plan-Conditioned
Policies in Robotics
- Title(参考訳): ロボットにおける普遍的計画決定政策の効率的な学習
- Authors: Ingmar Schubert and Danny Driess and Ozgur S. Oguz and Marc Toussaint
- Abstract要約: 本稿では,L2E(Learning to Execute)を導入し,概略計画に含まれる情報を活用し,計画に規定されたユニバーサルポリシーを学習する。
我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
- 参考スコア(独自算出の注目度): 20.148408520475655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Applications of Reinforcement Learning (RL) in robotics are often limited by
high data demand. On the other hand, approximate models are readily available
in many robotics scenarios, making model-based approaches like planning a
data-efficient alternative. Still, the performance of these methods suffers if
the model is imprecise or wrong. In this sense, the respective strengths and
weaknesses of RL and model-based planners are. In the present work, we
investigate how both approaches can be integrated into one framework that
combines their strengths. We introduce Learning to Execute (L2E), which
leverages information contained in approximate plans to learn universal
policies that are conditioned on plans. In our robotic manipulation
experiments, L2E exhibits increased performance when compared to pure RL, pure
planning, or baseline methods combining learning and planning.
- Abstract(参考訳): ロボット工学における強化学習(RL)の応用は、しばしば高いデータ要求によって制限される。
一方、近似モデルは、多くのロボティクスシナリオで容易に利用でき、データ効率の代替案を計画するなど、モデルベースのアプローチを作ることができる。
それでも、モデルが不正確か間違っているかによって、これらのメソッドのパフォーマンスは低下する。
この意味では、rlとモデルベースのプランナーのそれぞれの強みと弱みは、そうである。
本研究は,両アプローチをそれぞれの強みを組み合わせた一つのフレームワークに統合する方法について検討する。
概略計画に含まれる情報を活用して,計画に基づく普遍的な政策を学ぶl2e(learning to execution)を提案する。
我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。
関連論文リスト
- PLANRL: A Motion Planning and Imitation Learning Framework to Bootstrap Reinforcement Learning [13.564676246832544]
PLANRLは、ロボットがいつ古典的な動き計画を使うべきか、いつポリシーを学ぶべきかを選択するためのフレームワークである。
PLANRLは2つの操作モードを切り替える: オブジェクトから離れたときに古典的なテクニックを使ってウェイポイントに到達し、オブジェクトと対話しようとするときに細かい操作制御を行う。
我々は,複数の課題のあるシミュレーション環境と実世界のタスクにまたがってアプローチを評価し,既存手法と比較して適応性,効率,一般化の点で優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-07T19:30:08Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Finetuning Offline World Models in the Real World [13.46766121896684]
強化学習(RL)はデータ非効率で、実際のロボットの訓練を困難にしている。
オフラインのRLは、オンラインインタラクションなしで既存のデータセットのRLポリシーをトレーニングするためのフレームワークとして提案されている。
本研究では,実ロボットで収集したオフラインデータを用いて世界モデルを事前学習し,学習モデルを用いて計画して収集したオンラインデータ上でモデルを微調整する問題を考察する。
論文 参考訳(メタデータ) (2023-10-24T17:46:12Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Hierarchies of Planning and Reinforcement Learning for Robot Navigation [22.08479169489373]
多くのナビゲーションタスクでは、粗いフロアプランのように、高レベル(HL)タスク表現が利用可能である。
これまでの研究は、HL表現における経路計画からなる階層的アプローチによる効率的な学習を実証してきた。
本研究はHL表現のためのトレーニング可能な計画ポリシーを利用する新しい階層的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-23T07:18:15Z) - Self-Imitation Learning by Planning [3.996275177789895]
模擬学習(IL)により、熟練の知識を伝達することで、ロボットがスキルを素早く習得できます。
長期移動計画タスクでは、ILおよびRLメソッドのデプロイにおける課題は、大規模で広範囲に分散したデータの生成と収集方法である。
本研究では,現在の方針から訪問状態の計画により,実演データを自動収集する自己模倣学習(silp)を提案する。
SILPは、早期強化学習の段階で正常に訪問された状態がグラフ検索ベースのモーションプランナーの衝突のないノードであることに触発されます。
論文 参考訳(メタデータ) (2021-03-25T13:28:38Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。