論文の概要: Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation
- arxiv url: http://arxiv.org/abs/2410.13817v1
- Date: Thu, 17 Oct 2024 17:46:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:18:38.424518
- Title: Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation
- Title(参考訳): ロバストなマルチコンタクトロコマニピュレーションのためのガイド強化学習
- Authors: Jean-Pierre Sleiman, Mayank Mittal, Marco Hutter,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
- 参考スコア(独自算出の注目度): 12.377289165111028
- License:
- Abstract: Reinforcement learning (RL) often necessitates a meticulous Markov Decision Process (MDP) design tailored to each task. This work aims to address this challenge by proposing a systematic approach to behavior synthesis and control for multi-contact loco-manipulation tasks, such as navigating spring-loaded doors and manipulating heavy dishwashers. We define a task-independent MDP to train RL policies using only a single demonstration per task generated from a model-based trajectory optimizer. Our approach incorporates an adaptive phase dynamics formulation to robustly track the demonstrations while accommodating dynamic uncertainties and external disturbances. We compare our method against prior motion imitation RL works and show that the learned policies achieve higher success rates across all considered tasks. These policies learn recovery maneuvers that are not present in the demonstration, such as re-grasping objects during execution or dealing with slippages. Finally, we successfully transfer the policies to a real robot, demonstrating the practical viability of our approach.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究の目的は,バネ装荷ドアのナビゲートや重い食器洗い機操作など,多接触のロコ操作タスクに対して,行動合成と制御の体系的アプローチを提案することである。
モデルベーストラジェクトリオプティマイザから生成されたタスク毎の1つのデモのみを使用して,RLポリシーをトレーニングするためのタスク非依存のMDPを定義する。
本手法では, 動的不確実性や外乱を調節しながら, 実演を頑健に追跡するために, 適応位相ダイナミクスの定式化を取り入れている。
提案手法を先行動作模倣RLの動作と比較し,学習方針がすべてのタスクにおいて高い成功率を達成することを示す。
これらのポリシーは、実行中のオブジェクトの再解析やスリップの処理など、デモに存在しないリカバリ操作を学習する。
最後に、実際のロボットにポリシーを移すことに成功し、我々のアプローチの実用性を実証した。
関連論文リスト
- Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-30T15:15:30Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Visual Foresight With a Local Dynamics Model [1.370633147306388]
単一ステップ操作プリミティブのための状態遷移関数を効率的に学習するローカルダイナミクスモデル(LDM)を提案する。
LDMとモデルフリーなポリシー学習を組み合わせることで、ワンステップのルックアヘッド計画を用いて複雑な操作タスクを解くことができるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2022-06-29T17:58:14Z) - Temporal Logic Imitation: Learning Plan-Satisficing Motion Policies from
Demonstrations [15.762916270583698]
実演法(LfD)から学ぶことで,多段階課題の解決が期待できる。
本研究では,このような課題のルーツを,実証において暗黙的な個別計画を満たすための学習された継続的政策の失敗とみなす。
我々は,線形時間論理(LTL)式で規定される任意の離散計画について,学習された連続ポリシーがシミュレート可能であることを証明した。
論文 参考訳(メタデータ) (2022-06-09T17:25:22Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Evolutionary Stochastic Policy Distillation [139.54121001226451]
本稿では,GCRS課題を解決するための進化的政策蒸留法(ESPD)を提案する。
ESPDは、政策蒸留(PD)技術により、ターゲットポリシーを一連の変種から学習することを可能にする
MuJoCo制御系に基づく実験により,提案手法の学習効率が向上した。
論文 参考訳(メタデータ) (2020-04-27T16:19:25Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。