論文の概要: Zero-Shot Uncertainty-Aware Deployment of Simulation Trained Policies on
Real-World Robots
- arxiv url: http://arxiv.org/abs/2112.05299v1
- Date: Fri, 10 Dec 2021 02:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 00:38:32.700643
- Title: Zero-Shot Uncertainty-Aware Deployment of Simulation Trained Policies on
Real-World Robots
- Title(参考訳): ゼロショット不確実性を考慮した実世界ロボットのシミュレーション訓練政策の展開
- Authors: Krishan Rana, Vibhavari Dasagi, Jesse Haviland, Ben Talbot, MIchael
Milford and Niko S\"underhauf
- Abstract要約: 深層強化学習(RL)エージェントは、トレーニング環境と実行環境のミスマッチにより、現実世界にデプロイされた時にエラーを起こす傾向がある。
本稿では,RLポリシーと従来型の手作りコントローラの強みを組み合わせた,新しい不確実性対応デプロイメント戦略を提案する。
実世界の2つの連続制御タスクにおいて、BCFはスタンドアロンのポリシーとコントローラの両方に優れる有望な結果を示す。
- 参考スコア(独自算出の注目度): 17.710172337571617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deep reinforcement learning (RL) agents have demonstrated incredible
potential in attaining dexterous behaviours for robotics, they tend to make
errors when deployed in the real world due to mismatches between the training
and execution environments. In contrast, the classical robotics community have
developed a range of controllers that can safely operate across most states in
the real world given their explicit derivation. These controllers however lack
the dexterity required for complex tasks given limitations in analytical
modelling and approximations. In this paper, we propose Bayesian Controller
Fusion (BCF), a novel uncertainty-aware deployment strategy that combines the
strengths of deep RL policies and traditional handcrafted controllers. In this
framework, we can perform zero-shot sim-to-real transfer, where our uncertainty
based formulation allows the robot to reliably act within out-of-distribution
states by leveraging the handcrafted controller while gaining the dexterity of
the learned system otherwise. We show promising results on two real-world
continuous control tasks, where BCF outperforms both the standalone policy and
controller, surpassing what either can achieve independently. A supplementary
video demonstrating our system is provided at https://bit.ly/bcf_deploy.
- Abstract(参考訳): 深層強化学習(RL)エージェントは、ロボット工学の巧妙な動作を達成できる素晴らしい可能性を示しているが、トレーニングと実行環境のミスマッチにより、現実世界にデプロイされた時にエラーを起こす傾向がある。
対照的に、古典的なロボティクスコミュニティは、明示的な導出によって現実世界のほとんどの州で安全に操作できるコントローラーを開発した。
しかし、これらのコントローラは解析的モデリングと近似の制限により複雑なタスクに必要なデキスタリティを欠いている。
本稿では,ディープrlポリシと従来のハンドクラフトコントローラの強みを組み合わせた,新たな不確実性対応型展開戦略であるベイズ制御融合(bcf)を提案する。
このフレームワークでは、不確実性に基づく定式化によって、ロボットは、学習したシステムのデクタリティを得ながら、手作りのコントローラを活用して、分散状態内で確実に動作することができる。
bcfは、スタンドアロンのポリシーとコントローラの両方よりも優れており、どちらも独立して達成できることを上回っています。
本システムを示す補足ビデオはhttps://bit.ly/bcf_deployで公開されている。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Towards Transferring Tactile-based Continuous Force Control Policies
from Simulation to Robot [19.789369416528604]
グリップフォースコントロールは、物体に作用する力の量を制限することによって、物体を安全に操作することを目的としている。
以前の作品では、手動制御器、モデルベースのアプローチ、あるいはsim-to-realトランスファーを示さなかった。
シミュレーションで訓練されたモデルなしの深層強化学習手法を提案し,さらに微調整を行わずにロボットに移行した。
論文 参考訳(メタデータ) (2023-11-13T11:29:06Z) - Nonprehensile Planar Manipulation through Reinforcement Learning with
Multimodal Categorical Exploration [8.343657309038285]
強化学習はそのようなロボットコントローラを開発するための強力なフレームワークである。
分類分布を用いたマルチモーダル探索手法を提案する。
学習したポリシは外部の障害や観測ノイズに対して堅牢であり、複数のプッシュ器でタスクにスケールできることが示される。
論文 参考訳(メタデータ) (2023-08-04T16:55:00Z) - Residual Physics Learning and System Identification for Sim-to-real
Transfer of Policies on Buoyancy Assisted Legged Robots [14.760426243769308]
本研究では,BALLUロボットのシステム識別による制御ポリシのロバストなシミュレートを実演する。
標準的な教師あり学習の定式化に頼るのではなく、深層強化学習を利用して外部力政策を訓練する。
シミュレーショントラジェクトリと実世界のトラジェクトリを比較することで,改良されたシミュレーション忠実度を解析する。
論文 参考訳(メタデータ) (2023-03-16T18:49:05Z) - Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。
提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文 参考訳(メタデータ) (2023-03-07T08:16:46Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Monolithic vs. hybrid controller for multi-objective Sim-to-Real
learning [58.32117053812925]
シミュレーション・トゥ・リアル(Sim-to-Real)はロボット作業のためのコントローラを構築するための魅力的なアプローチである。
本研究では,ロボットマニピュレータの多目的設定における2つのアプローチを比較し,障害物を避けながら目標に到達する方法を提案する。
この結果から,ハイブリッドコントローラのトレーニングが簡単で,モノリシックコントローラよりも優れた成功と失敗のトレードオフが得られることがわかった。
論文 参考訳(メタデータ) (2021-08-17T09:02:33Z) - Bayesian Controller Fusion: Leveraging Control Priors in Deep
Reinforcement Learning for Robotics [17.660913275007317]
従来の手作りコントローラーの強みとモデルフリー深部強化学習(RL)を組み合わせたハイブリッド制御戦略を提案する。
BCFはロボティクス領域で成長し、多くのタスクに対して信頼性はあるが最適でない制御が優先されるが、スクラッチからのRLは安全であり、データ非効率である。
実世界におけるゼロショットsim-to-realセッティングへのBCFの適用性と,そのアウト・オブ・ディストリビューション状態に対処する能力を示す。
論文 参考訳(メタデータ) (2021-07-21T00:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。