論文の概要: Scaffolded Gait Learning of a Quadruped Robot with Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2101.09961v1
- Date: Mon, 25 Jan 2021 08:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 06:13:11.469732
- Title: Scaffolded Gait Learning of a Quadruped Robot with Bayesian Optimization
- Title(参考訳): ベイズ最適化による4足歩行ロボットの足場歩行学習
- Authors: Keyan Zhai, Chu'an Li, Andre Rosendo
- Abstract要約: 緩やかに削減された支持は、一定高さでの支持よりも安定した歩行を創出できることが示される。
シミュレーションと現実のギャップはロボットに壊滅的な失敗をもたらす可能性があるが、提案手法は新たな行動を学ぶ際のスピードと安全性を組み合わせたものである。
- 参考スコア(独自算出の注目度): 1.5853886606819705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During learning trials, systems are exposed to different failure conditions
which may break robotic parts before a safe behavior is discovered. Humans
contour this problem by grounding their learning to a safer structure/control
first and gradually increasing its difficulty. This paper presents the impact
of a similar supports in the learning of a stable gait on a quadruped robot.
Based on the psychological theory of instructional scaffolding, we provide
different support settings to our robot, evaluated with strain gauges, and use
Bayesian Optimization to conduct a parametric search towards a stable Raibert
controller. We perform several experiments to measure the relation between
constant supports and gradually reduced supports during gait learning, and our
results show that a gradually reduced support is capable of creating a more
stable gait than a support at a fixed height. Although gaps between simulation
and reality can lead robots to catastrophic failures, our proposed method
combines speed and safety when learning a new behavior.
- Abstract(参考訳): 学習試験の間、システムは異なる障害条件に晒され、安全な行動が見つかる前にロボット部品を壊す可能性がある。
人間はこの問題を、学習をより安全な構造/制御に置き、その難しさを徐々に増すことで解決する。
本稿では,四足歩行ロボットに対する安定歩行学習における同様の支援の効果について述べる。
指導足場に関する心理学的理論に基づき,ロボットに異なる支援設定を提供し,ひずみゲージを用いて評価し,安定なraibertコントローラに対するパラメトリック探索を行うためにベイズ最適化を用いる。
歩行学習において一定支持と徐々に減少する支持の関係を計測するための実験を行い, 徐々に減少する支持は一定高さでの支持よりも安定な歩行を創出できることを示した。
シミュレーションと現実のギャップはロボットに壊滅的な失敗をもたらす可能性があるが、提案手法は新たな行動を学ぶ際のスピードと安全性を組み合わせたものである。
関連論文リスト
- Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Inverted Landing in a Small Aerial Robot via Deep Reinforcement Learning
for Triggering and Control of Rotational Maneuvers [11.29285364660789]
高速で頑健な逆着陸は、特に機内でのセンシングと計算に完全に依存しながらも、空中ロボットにとって難しい偉業である。
これまでの研究では、一連の視覚的手がかりとキネマティックな動作の間に直接的な因果関係が特定され、小型の空中ロボットでこの困難なエアロバティックな操作を確実に実行することができた。
本研究では、まずDeep Reinforcement Learningと物理シミュレーションを用いて、頑健な逆着陸のための汎用的最適制御ポリシーを得る。
論文 参考訳(メタデータ) (2022-09-22T14:38:10Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z) - Reinforcement Learning Experiments and Benchmark for Solving Robotic
Reaching Tasks [0.0]
強化学習はロボットアームによる到達タスクの解決に成功している。
ハイドサイト体験再生探索技術により報奨信号の増大が, オフ・ポリティクス・エージェントの平均リターンを増加させることが示されている。
論文 参考訳(メタデータ) (2020-11-11T14:00:49Z) - Survivable Hyper-Redundant Robotic Arm with Bayesian Policy Morphing [1.2891210250935143]
我々は,ロボットエージェントが学習方針を自己修正できるような,ベイズ政策形態(BPM)の枠組みを定式化する。
本研究では,事前経験に偏った方針探索が,サンプリング要求の観点から学習効率を著しく向上させることを示す。
以上の結果から,ロボットアームは物理的損傷があっても,対象物の位置を正確に把握する機能を維持することができることがわかった。
論文 参考訳(メタデータ) (2020-10-20T02:14:22Z) - Hyperparameter Auto-tuning in Self-Supervised Robotic Learning [12.193817049957733]
不十分な学習(局所最適収束による)は、冗長な学習が時間と資源を浪費する一方で、低パフォーマンスの政策をもたらす。
自己教師付き強化学習のためのエビデンス下界(ELBO)に基づく自動チューニング手法を提案する。
本手法は,オンラインで自動チューニングが可能であり,計算資源のごく一部で最高の性能が得られる。
論文 参考訳(メタデータ) (2020-10-16T08:58:24Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - How to reduce computation time while sparing performance during robot
navigation? A neuro-inspired architecture for autonomous shifting between
model-based and model-free learning [1.3854111346209868]
本稿では,性能とコストを明示的に測定する学習システム間の新たな調停機構を提案する。
ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。
タスクが安定すると、ロボットは自律的に最もコストのかかるシステムに移行し、高い性能を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-04-30T11:29:16Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。