論文の概要: Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots
- arxiv url: http://arxiv.org/abs/2303.04136v1
- Date: Tue, 7 Mar 2023 18:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 14:08:53.556822
- Title: Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots
- Title(参考訳): ソフトロボットのロバスト・アドホッカブル・効果的な閉ループ制御のためのドメインランダム化
- Authors: Gabriele Tiboni, Andrea Protopapa, Tatiana Tommasi, Giuseppe Averta
- Abstract要約: 強化学習に基づくアプローチは、現実的なシナリオにデプロイする場合、非効率的です。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法のアルゴリズム拡張を提案する。
我々は4つの異なるタスクと2つのソフトロボットの設計結果を提供し、閉ループソフトロボット制御のための強化学習の今後の研究に興味深い視点を開く。
- 参考スコア(独自算出の注目度): 11.233022795082572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Soft robots are becoming extremely popular thanks to their intrinsic safety
to contacts and adaptability. However, the potentially infinite number of
Degrees of Freedom makes their modeling a daunting task, and in many cases only
an approximated description is available. This challenge makes reinforcement
learning (RL) based approaches inefficient when deployed on a realistic
scenario, due to the large domain gap between models and the real platform. In
this work, we demonstrate, for the first time, how Domain Randomization (DR)
can solve this problem by enhancing RL policies with: i) a higher robustness
w.r.t. environmental changes; ii) a higher affordability of learned policies
when the target model differs significantly from the training model; iii) a
higher effectiveness of the policy, which can even autonomously learn to
exploit the environment to increase the robot capabilities (environmental
constraints exploitation). Moreover, we introduce a novel algorithmic extension
of previous adaptive domain randomization methods for the automatic inference
of dynamics parameters for deformable objects. We provide results on four
different tasks and two soft robot designs, opening interesting perspectives
for future research on Reinforcement Learning for closed-loop soft robot
control.
- Abstract(参考訳): ソフトロボットは、コンタクトや適応性に固有の安全性のおかげで、非常に人気がある。
しかし、潜在的に無限の数の自由度によってモデリングは大変な作業となり、多くの場合、近似された記述しか得られない。
この課題は、モデルと実際のプラットフォームの間に大きなドメインギャップがあるため、現実的なシナリオにデプロイする場合、強化学習(RL)ベースのアプローチを非効率にする。
本稿では,まず,rlポリシーの強化により,ドメインランダム化(dr)がこの問題をどのように解決できるかを実証する。
一 より強固な w.r.t.環境の変化
二 目標モデルが訓練モデルと著しく異なる場合において、学習方針の許容度を高めること。
三 ロボットの能力を高めるために環境を活用することを自律的に学ぶことができる政策の有効性(環境制約の活用)。
さらに,変形可能なオブジェクトに対する動的パラメータの自動推論のために,従来の適応領域ランダム化手法のアルゴリズム拡張を導入する。
我々は4つの異なるタスクと2つのソフトロボットの設計結果を提供し、閉ループソフトロボット制御のための強化学習の今後の研究に興味深い視点を開く。
関連論文リスト
- Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved
Proximal Policy Optimization [6.067589886362815]
本稿では,6-DoFマニピュレータのタスク空間から関節空間にマップするために,改良されたPPOアルゴリズムを用いて深層ニューラルネットワークを訓練する。
実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。
実験結果から,ロボットは非構造環境下で1つの目標をトラッキングしたり,複数の目標に到達することができた。
論文 参考訳(メタデータ) (2022-10-03T10:21:57Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z) - Learning to Walk Autonomously via Reset-Free Quality-Diversity [73.08073762433376]
品質多様性アルゴリズムは、多様かつ高いパフォーマンスのスキルからなる大規模で複雑な行動レパートリーを発見することができる。
既存のQDアルゴリズムは、手動による人間の監督と介入を必要とするエピソードリセットと同様に、多数の評価を必要とする。
本稿では,オープンエンド環境におけるロボットの自律学習に向けたステップとして,リセットフリー品質多様性最適化(RF-QD)を提案する。
論文 参考訳(メタデータ) (2022-04-07T14:07:51Z) - OSCAR: Data-Driven Operational Space Control for Adaptive and Robust
Robot Manipulation [50.59541802645156]
オペレーショナル・スペース・コントロール(OSC)は、操作のための効果的なタスクスペース・コントローラとして使われてきた。
本稿では,データ駆動型OSCのモデル誤差を補償するOSC for Adaptation and Robustness (OSCAR)を提案する。
本手法は,様々なシミュレーション操作問題に対して評価し,制御器のベースラインの配列よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-10-02T01:21:38Z) - Model Predictive Actor-Critic: Accelerating Robot Skill Acquisition with
Deep Reinforcement Learning [42.525696463089794]
Model Predictive Actor-Critic (MoPAC)は、モデル予測ロールアウトとポリシー最適化を組み合わせてモデルバイアスを軽減するハイブリッドモデルベース/モデルフリーメソッドである。
MoPACは最適なスキル学習を近似誤差まで保証し、環境との物理的相互作用を減らす。
論文 参考訳(メタデータ) (2021-03-25T13:50:24Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Fast Online Adaptation in Robotics through Meta-Learning Embeddings of
Simulated Priors [3.4376560669160385]
現実の世界では、ロボットはモーターの故障から岩の多い地形で自分自身を見つけるまで、あらゆる状況に遭遇するかもしれない。
FAMLEにより、ロボットはベースラインよりもはるかに少ない時間で、新たな損傷に適応できることを示す。
論文 参考訳(メタデータ) (2020-03-10T12:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。