論文の概要: Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.00086v1
- Date: Wed, 27 Nov 2024 03:33:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:41:49.090864
- Title: Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning
- Title(参考訳): モデル予測強化学習による動的非定常物体輸送
- Authors: Neel Jawale, Byron Boots, Balakumar Sundaralingam, Mohak Bhardwaj,
- Abstract要約: バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
- 参考スコア(独自算出の注目度): 24.079032278280447
- License:
- Abstract: We investigate the problem of teaching a robot manipulator to perform dynamic non-prehensile object transport, also known as the `robot waiter' task, from a limited set of real-world demonstrations. We propose an approach that combines batch reinforcement learning (RL) with model-predictive control (MPC) by pretraining an ensemble of value functions from demonstration data, and utilizing them online within an uncertainty-aware MPC scheme to ensure robustness to limited data coverage. Our approach is straightforward to integrate with off-the-shelf MPC frameworks and enables learning solely from task space demonstrations with sparsely labeled transitions, while leveraging MPC to ensure smooth joint space motions and constraint satisfaction. We validate the proposed approach through extensive simulated and real-world experiments on a Franka Panda robot performing the robot waiter task and demonstrate robust deployment of value functions learned from 50-100 demonstrations. Furthermore, our approach enables generalization to novel objects not seen during training and can improve upon suboptimal demonstrations. We believe that such a framework can reduce the burden of providing extensive demonstrations and facilitate rapid training of robot manipulators to perform non-prehensile manipulation tasks. Project videos and supplementary material can be found at: https://sites.google.com/view/cvmpc.
- Abstract(参考訳): 本研究では,ロボットマニピュレータによる動的非包括的物体輸送,いわゆる 'robot waiter' タスクの実行を実世界の限られたデモから行うことの問題点について検討する。
本稿では,実演データから価値関数のアンサンブルを事前学習することで,バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせる手法を提案する。
提案手法は市販のMPCフレームワークと簡単に統合でき,スムーズな共同作業と制約満足度を確保するためにMPCを活用しながら,スムーズなラベル付き遷移を伴うタスクスペースのデモンストレーションのみから学習することができる。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験を通じて検証し,50~100回のデモから得られた価値関数のロバストな展開を実証する。
さらに,本手法により,トレーニング中に見えない新しい物体への一般化が可能となり,準最適実演における改善が可能となった。
このようなフレームワークは、広範囲なデモンストレーションを提供することの負担を軽減し、非包括的操作タスクを行うロボットマニピュレータの迅速な訓練を促進することができると信じている。
プロジェクトビデオと追加資料は、https://sites.google.com/view/cvmpc.comで見ることができる。
関連論文リスト
- Screw Geometry Meets Bandits: Incremental Acquisition of Demonstrations to Generate Manipulation Plans [9.600625243282618]
本研究では,1回に1回に1回,十分な審美的デモンストレーションの集合を得るという課題について検討する。
実験結果から操作計画を生成するために, (i) スクリュー幾何表現を用いて, これらのオープンな問題に対処する新しい手法を提案する。
本研究は,2つの実例操作課題,すなわち注水とスクーピングに関する実験結果である。
論文 参考訳(メタデータ) (2024-10-23T20:57:56Z) - Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation [36.43143326197769]
Track-Any-Point (TAP) モデルは、デモ中の関連する動きを分離し、低レベルのコントローラをパラメータ化して、シーン構成の変化をまたいでこの動きを再現する。
この結果は,形状整合,積み重ね,さらには接着や物体の付着といった完全な経路追従といった複雑な物体配置タスクを解くことのできるロバストなロボットポリシーで示される。
論文 参考訳(メタデータ) (2023-08-30T11:57:04Z) - GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-30T15:15:30Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。