論文の概要: Error-Aware Policy Learning: Zero-Shot Generalization in Partially
Observable Dynamic Environments
- arxiv url: http://arxiv.org/abs/2103.07732v1
- Date: Sat, 13 Mar 2021 15:36:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 10:47:50.511197
- Title: Error-Aware Policy Learning: Zero-Shot Generalization in Partially
Observable Dynamic Environments
- Title(参考訳): エラー対応政策学習:部分的に観察可能な動的環境におけるゼロショット一般化
- Authors: Visak Kumar, Sehoon Ha, C. Karen Liu
- Abstract要約: 新しい環境に適応できる政策を開発することで、このようなシム・トゥ・リアル問題に取り組むための新しいアプローチを紹介します。
私たちのアプローチの鍵は、トレーニング中に観察できない要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。
ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。
- 参考スコア(独自算出の注目度): 18.8481771211768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Simulation provides a safe and efficient way to generate useful data for
learning complex robotic tasks. However, matching simulation and real-world
dynamics can be quite challenging, especially for systems that have a large
number of unobserved or unmeasurable parameters, which may lie in the robot
dynamics itself or in the environment with which the robot interacts. We
introduce a novel approach to tackle such a sim-to-real problem by developing
policies capable of adapting to new environments, in a zero-shot manner. Key to
our approach is an error-aware policy (EAP) that is explicitly made aware of
the effect of unobservable factors during training. An EAP takes as input the
predicted future state error in the target environment, which is provided by an
error-prediction function, simultaneously trained with the EAP. We validate our
approach on an assistive walking device trained to help the human user recover
from external pushes. We show that a trained EAP for a hip-torque assistive
device can be transferred to different human agents with unseen biomechanical
characteristics. In addition, we show that our method can be applied to other
standard RL control tasks.
- Abstract(参考訳): シミュレーションは、複雑なロボットタスクを学習するための有用なデータを生成する安全で効率的な方法を提供する。
しかし、シミュレーションと実世界のダイナミクスのマッチングは非常に困難であり、特に多くの未観測または計測不可能なパラメータを持つシステムでは、ロボット自身やロボットが相互作用する環境にある可能性がある。
我々は,新しい環境に適応可能なポリシーをゼロショット方式で開発することにより,このようなシム・トゥ・リアルな問題に取り組むための新しいアプローチを提案する。
このアプローチの鍵となるのは、トレーニング中に観測不能な要因の影響を明示的に認識するエラー認識ポリシー(EAP)です。
EAPは、エラー予測関数によって提供されるターゲット環境で予測される将来の状態エラーをEAPと同時にトレーニングする。
我々は、人間の外部からのプッシュからの回復を支援するために訓練された補助歩行装置に対するアプローチを検証する。
ヒップトルク補助装置の訓練されたEAPは, 生体力学的特性の異なる異なる人体エージェントに転送可能であることを示す。
さらに,本手法は他の標準RL制御タスクにも適用可能であることを示す。
関連論文リスト
- Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - GAN-MPC: Training Model Predictive Controllers with Parameterized Cost
Functions using Demonstrations from Non-identical Experts [14.291720751625585]
本稿では,ジェンセン-シャノン間におけるデモンストレータの状態-軌道分布のばらつきを最小限に抑えるために,GAN(Generative Adversarial Network)を提案する。
我々はDeepMind Controlスイートの様々なシミュレーションロボットタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-05-30T15:15:30Z) - Quality-Diversity Optimisation on a Physical Robot Through
Dynamics-Aware and Reset-Free Learning [4.260312058817663]
本研究では,リセットフリーQD(RF-QD)アルゴリズムを用いて,物理ロボット上で直接コントローラを学習する。
本手法は,ロボットと環境との相互作用から学習したダイナミクスモデルを用いて,ロボットの動作を予測する。
RF-QDには、ロボットが外を歩いたときに安全なゾーンに戻すリカバリポリシーも含まれており、継続的な学習を可能にしている。
論文 参考訳(メタデータ) (2023-04-24T13:24:00Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z) - Planning for Learning Object Properties [117.27898922118946]
我々は、物体特性を象徴的な計画問題として認識するために、ニューラルネットワークを自動的に訓練する問題を定式化する。
トレーニングデータセット作成と学習プロセスを自動化するための戦略を作成するために,計画手法を使用します。
シミュレーションと実環境の両方で実験的な評価を行う。
論文 参考訳(メタデータ) (2023-01-15T09:37:55Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Zero-Shot Reinforcement Learning on Graphs for Autonomous Exploration
Under Uncertainty [6.42522897323111]
シミュレーション環境で高性能探査政策を自己学習するための枠組みを提案する。
本稿では,グラフニューラルネットワークと深層強化学習を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-11T02:42:17Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Deep Reactive Planning in Dynamic Environments [20.319894237644558]
ロボットは、実行中に環境の変化に適応できるエンドツーエンドポリシーを学ぶことができる。
本稿では,従来のキネマティック計画,深層学習,深層学習を組み合わせることで,そのような行動を実現する方法を提案する。
そこで本研究では,6-DoF産業用マニピュレータの実システムと同様に,シミュレーションにおけるいくつかの到達およびピック・アンド・プレイスタスクに対する提案手法を実証する。
論文 参考訳(メタデータ) (2020-10-31T00:46:13Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。