論文の概要: Back to Reality for Imitation Learning
- arxiv url: http://arxiv.org/abs/2111.12867v1
- Date: Thu, 25 Nov 2021 02:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-05 01:42:03.057630
- Title: Back to Reality for Imitation Learning
- Title(参考訳): 模倣学習のための現実に戻り
- Authors: Edward Johns
- Abstract要約: 模倣学習と一般のロボット学習は、ロボット工学のブレークスルーではなく、機械学習のブレークスルーによって生まれた。
私たちは、現実世界のロボット学習のより良い指標は時間効率であり、人間の真のコストをモデル化するものだと考えています。
- 参考スコア(独自算出の注目度): 8.57914821832517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning, and robot learning in general, emerged due to
breakthroughs in machine learning, rather than breakthroughs in robotics. As
such, evaluation metrics for robot learning are deeply rooted in those for
machine learning, and focus primarily on data efficiency. We believe that a
better metric for real-world robot learning is time efficiency, which better
models the true cost to humans. This is a call to arms to the robot learning
community to develop our own evaluation metrics, tailored towards the long-term
goals of real-world robotics.
- Abstract(参考訳): 模倣学習と一般のロボット学習は、ロボット工学のブレークスルーではなく、機械学習のブレークスルーによって生まれた。
そのため、ロボット学習の評価基準は機械学習に深く根ざしており、主にデータ効率に重点を置いている。
私たちは、現実世界のロボット学習のためのより良い測定基準は、時間効率であると信じています。
これは、現実のロボット工学の長期的な目標に合わせて、私たちの評価指標を開発するために、ロボット学習コミュニティに武器を要求するものだ。
関連論文リスト
- Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - HERD: Continuous Human-to-Robot Evolution for Learning from Human
Demonstration [57.045140028275036]
本研究では,マイクロ進化的強化学習を用いて,操作スキルを人間からロボットに伝達可能であることを示す。
本稿では,ロボットの進化経路とポリシーを協調的に最適化する多次元進化経路探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-08T15:56:13Z) - DayDreamer: World Models for Physical Robot Learning [142.11031132529524]
深層強化学習はロボット学習の一般的なアプローチであるが、学習するには大量の試行錯誤が必要となる。
ロボット学習の多くの進歩はシミュレータに依存している。
本稿では,Dreamerを4つのロボットに適用し,シミュレータを使わずに,オンラインおよび実世界で直接学習する。
論文 参考訳(メタデータ) (2022-06-28T17:44:48Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - REvolveR: Continuous Evolutionary Models for Robot-to-robot Policy
Transfer [57.045140028275036]
本研究では,運動学や形態学など,異なるパラメータを持つ2つの異なるロボット間でポリシーを伝達する問題を考察する。
模倣学習手法を含む動作や状態遷移の分布を一致させることで、新しいポリシーを訓練する既存のアプローチは、最適な動作や/または状態分布が異なるロボットでミスマッチしているために失敗する。
本稿では,物理シミュレータに実装されたロボット政策伝達に連続的進化モデルを用いることで,$RevolveR$という新しい手法を提案する。
論文 参考訳(メタデータ) (2022-02-10T18:50:25Z) - Auditing Robot Learning for Safety and Compliance during Deployment [4.742825811314168]
我々は、ロボット学習アルゴリズムを人間との互換性を確認するのにいかに最適かを研究する。
これは、ロボット学習コミュニティ全体の努力を必要とする難しい問題だと考えています。
論文 参考訳(メタデータ) (2021-10-12T02:40:11Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Continual Learning of Visual Concepts for Robots through Limited
Supervision [9.89901717499058]
私の研究は、動的に見えない環境で継続的に学習するロボットの開発に焦点を当てています。
私は、ベンチマークデータセットで最新の結果を生成する機械学習モデルを開発します。
論文 参考訳(メタデータ) (2021-01-26T01:26:07Z) - How to reduce computation time while sparing performance during robot
navigation? A neuro-inspired architecture for autonomous shifting between
model-based and model-free learning [1.3854111346209868]
本稿では,性能とコストを明示的に測定する学習システム間の新たな調停機構を提案する。
ロボットは,学習システム間の切り替えによって環境変化に適応し,高い性能を維持することができる。
タスクが安定すると、ロボットは自律的に最もコストのかかるシステムに移行し、高い性能を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2020-04-30T11:29:16Z) - Efficient reinforcement learning control for continuum robots based on
Inexplicit Prior Knowledge [3.3645162441357437]
本稿では,未熟な事前知識に基づく効率的な強化学習手法を提案する。
本手法を用いることで、腱駆動ロボットのアクティブな視覚追跡と距離維持を実現することができる。
論文 参考訳(メタデータ) (2020-02-26T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。