論文の概要: Scaffolded Gait Learning of a Quadruped Robot with Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2101.09961v1
- Date: Mon, 25 Jan 2021 08:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 06:13:11.469732
- Title: Scaffolded Gait Learning of a Quadruped Robot with Bayesian Optimization
- Title(参考訳): ベイズ最適化による4足歩行ロボットの足場歩行学習
- Authors: Keyan Zhai, Chu'an Li, Andre Rosendo
- Abstract要約: 緩やかに削減された支持は、一定高さでの支持よりも安定した歩行を創出できることが示される。
シミュレーションと現実のギャップはロボットに壊滅的な失敗をもたらす可能性があるが、提案手法は新たな行動を学ぶ際のスピードと安全性を組み合わせたものである。
- 参考スコア(独自算出の注目度): 1.5853886606819705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During learning trials, systems are exposed to different failure conditions
which may break robotic parts before a safe behavior is discovered. Humans
contour this problem by grounding their learning to a safer structure/control
first and gradually increasing its difficulty. This paper presents the impact
of a similar supports in the learning of a stable gait on a quadruped robot.
Based on the psychological theory of instructional scaffolding, we provide
different support settings to our robot, evaluated with strain gauges, and use
Bayesian Optimization to conduct a parametric search towards a stable Raibert
controller. We perform several experiments to measure the relation between
constant supports and gradually reduced supports during gait learning, and our
results show that a gradually reduced support is capable of creating a more
stable gait than a support at a fixed height. Although gaps between simulation
and reality can lead robots to catastrophic failures, our proposed method
combines speed and safety when learning a new behavior.
- Abstract(参考訳): 学習試験の間、システムは異なる障害条件に晒され、安全な行動が見つかる前にロボット部品を壊す可能性がある。
人間はこの問題を、学習をより安全な構造/制御に置き、その難しさを徐々に増すことで解決する。
本稿では,四足歩行ロボットに対する安定歩行学習における同様の支援の効果について述べる。
指導足場に関する心理学的理論に基づき,ロボットに異なる支援設定を提供し,ひずみゲージを用いて評価し,安定なraibertコントローラに対するパラメトリック探索を行うためにベイズ最適化を用いる。
歩行学習において一定支持と徐々に減少する支持の関係を計測するための実験を行い, 徐々に減少する支持は一定高さでの支持よりも安定な歩行を創出できることを示した。
シミュレーションと現実のギャップはロボットに壊滅的な失敗をもたらす可能性があるが、提案手法は新たな行動を学ぶ際のスピードと安全性を組み合わせたものである。
関連論文リスト
- Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal
Locomotion Control [112.66677641636299]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Deception Game: Closing the Safety-Learning Loop in Interactive Robot
Autonomy [7.915956857741506]
既存の安全手法は、ロボットが実行時に学習し適応する能力を無視することが多く、過度に保守的な行動を引き起こす。
本稿では,ロボットの進化する不確実性を明示的に考慮した安全制御ポリシを合成するための,新しいクローズドループパラダイムを提案する。
論文 参考訳(メタデータ) (2023-09-03T20:34:01Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - VAE-Loco: Versatile Quadruped Locomotion by Learning a Disentangled Gait
Representation [78.92147339883137]
本研究では,特定の歩行を構成する主要姿勢位相を捕捉する潜在空間を学習することにより,制御器のロバスト性を高めることが重要であることを示す。
本研究では,ドライブ信号マップの特定の特性が,歩幅,歩幅,立位などの歩行パラメータに直接関係していることを示す。
生成モデルを使用することで、障害の検出と緩和が容易になり、汎用的で堅牢な計画フレームワークを提供する。
論文 参考訳(メタデータ) (2022-05-02T19:49:53Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z) - Reinforcement Learning Experiments and Benchmark for Solving Robotic
Reaching Tasks [0.0]
強化学習はロボットアームによる到達タスクの解決に成功している。
ハイドサイト体験再生探索技術により報奨信号の増大が, オフ・ポリティクス・エージェントの平均リターンを増加させることが示されている。
論文 参考訳(メタデータ) (2020-11-11T14:00:49Z) - Survivable Hyper-Redundant Robotic Arm with Bayesian Policy Morphing [1.2891210250935143]
我々は,ロボットエージェントが学習方針を自己修正できるような,ベイズ政策形態(BPM)の枠組みを定式化する。
本研究では,事前経験に偏った方針探索が,サンプリング要求の観点から学習効率を著しく向上させることを示す。
以上の結果から,ロボットアームは物理的損傷があっても,対象物の位置を正確に把握する機能を維持することができることがわかった。
論文 参考訳(メタデータ) (2020-10-20T02:14:22Z) - Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文 参考訳(メタデータ) (2020-10-16T08:58:24Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - How to reduce computation time while sparing performance during robot
navigation? A neuro-inspired architecture for autonomous shifting between
model-based and model-free learning [1.3854111346209868]
本稿では,性能とコストを明示的に測定する学習システム間の新たな調停機構を提案する。
ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。
タスクが安定すると、ロボットは自律的に最もコストのかかるシステムに移行し、高い性能を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-04-30T11:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。