論文の概要: Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment
- arxiv url: http://arxiv.org/abs/2211.08416v3
- Date: Tue, 4 Jul 2023 00:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 23:46:49.825784
- Title: Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment
- Title(参考訳): ロボットによる仕事の学習:人間による自律性と展開中の学習
- Authors: Huihan Liu, Soroush Nasiriany, Lance Zhang, Zhiyao Bao, Yuke Zhu
- Abstract要約: Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 25.186525630548356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid growth of computing powers and recent advances in deep
learning, we have witnessed impressive demonstrations of novel robot
capabilities in research settings. Nonetheless, these learning systems exhibit
brittle generalization and require excessive training data for practical tasks.
To harness the capabilities of state-of-the-art robot learning models while
embracing their imperfections, we present Sirius, a principled framework for
humans and robots to collaborate through a division of work. In this framework,
partially autonomous robots are tasked with handling a major portion of
decision-making where they work reliably; meanwhile, human operators monitor
the process and intervene in challenging situations. Such a human-robot team
ensures safe deployments in complex tasks. Further, we introduce a new learning
algorithm to improve the policy's performance on the data collected from the
task executions. The core idea is re-weighing training samples with
approximated human trust and optimizing the policies with weighted behavioral
cloning. We evaluate Sirius in simulation and on real hardware, showing that
Sirius consistently outperforms baselines over a collection of contact-rich
manipulation tasks, achieving an 8% boost in simulation and 27% on real
hardware than the state-of-the-art methods in policy success rate, with twice
faster convergence and 85% memory size reduction. Videos and more details are
available at https://ut-austin-rpl.github.io/sirius/
- Abstract(参考訳): コンピュータパワーの急速な成長とディープラーニングの最近の進歩により、研究環境における新しいロボット能力の印象的な実証が見られた。
それでも、これらの学習システムは不安定な一般化を示し、実践的なタスクに過剰なトレーニングデータを必要とする。
非完全性を受け入れつつ最先端のロボット学習モデルの能力を活用するために,人間とロボットが作業部門で協力するための原則フレームワークであるsiriusを提案する。
このフレームワークでは、部分的に自律的なロボットが意思決定の大部分を適切に処理するタスクを負う一方で、人間のオペレーターはプロセスを監視し、困難な状況に介入する。
このような人間ロボットチームは、複雑なタスクに安全なデプロイを保証する。
さらに,タスク実行から収集したデータに対するポリシーの性能を向上させるための新しい学習アルゴリズムを提案する。
中心となるアイデアは、トレーニングサンプルをおよそ人間の信頼で強化し、重み付けされた行動のクローンでポリシーを最適化することだ。
我々はSiriusをシミュレーションおよび実際のハードウェアで評価し、Siriusが一連のコンタクトリッチな操作タスクに対して一貫してベースラインを上回り、シミュレーションで8%、実際のハードウェアで27%向上し、コンバージェンスを2倍速くし、メモリサイズを85%削減した。
ビデオや詳細はhttps://ut-austin-rpl.github.io/sirius/で確認できる。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Bridging Active Exploration and Uncertainty-Aware Deployment Using
Probabilistic Ensemble Neural Network Dynamics [11.946807588018595]
本稿では,活発な探索と不確実性を考慮した展開を橋渡しするモデルベース強化学習フレームワークを提案する。
探索と展開の対立する2つのタスクは、最先端のサンプリングベースのMPCによって最適化されている。
自動運転車と車輪付きロボットの両方で実験を行い、探索と展開の両方に有望な結果を示します。
論文 参考訳(メタデータ) (2023-05-20T17:20:12Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum
Learning Study [4.045850174820418]
本稿では,Domain Randomization(DR)と組み合わせたカリキュラム学習に基づく,コンタクトリッチな操作タスクのロボット学習の高速化に関する研究を行う。
挿入タスクのような位置制御ロボットによる複雑な産業組み立てタスクに対処する。
また,おもちゃのタスクを用いたシミュレーションでのみトレーニングを行う場合においても,現実のロボットに伝達可能なポリシーを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T11:08:39Z) - Learning to Fold Real Garments with One Arm: A Case Study in Cloud-Based
Robotics Research [21.200764836237497]
物理ハードウェア上でのファブリック操作アルゴリズムのシステマティックなベンチマークを行う。
専門家の行動、キーポイント、報酬関数、動的動きをモデル化する4つの新しい学習ベースアルゴリズムを開発した。
データ収集、モデルトレーニング、およびポリシー評価のライフサイクル全体は、ロボットワークセルへの物理的アクセスなしに遠隔で実行される。
論文 参考訳(メタデータ) (2022-04-21T17:31:20Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Lifelong Robotic Reinforcement Learning by Retaining Experiences [61.79346922421323]
多くのマルチタスク強化学習は、ロボットが常にすべてのタスクからデータを収集できると仮定している。
本研究では,物理ロボットシステムの実用的制約を動機として,現実的なマルチタスクRL問題について検討する。
我々は、ロボットのスキルセットを累積的に成長させるために、過去のタスクで学んだデータとポリシーを効果的に活用するアプローチを導出する。
論文 参考訳(メタデータ) (2021-09-19T18:00:51Z) - Reinforcement Learning Experiments and Benchmark for Solving Robotic
Reaching Tasks [0.0]
強化学習はロボットアームによる到達タスクの解決に成功している。
ハイドサイト体験再生探索技術により報奨信号の増大が, オフ・ポリティクス・エージェントの平均リターンを増加させることが示されている。
論文 参考訳(メタデータ) (2020-11-11T14:00:49Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。