論文の概要: Asking for Help: Failure Prediction in Behavioral Cloning through Value
Approximation
- arxiv url: http://arxiv.org/abs/2302.04334v1
- Date: Wed, 8 Feb 2023 20:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 17:35:42.167572
- Title: Asking for Help: Failure Prediction in Behavioral Cloning through Value
Approximation
- Title(参考訳): 支援を求める: 値近似による行動クローニングにおける障害予測
- Authors: Cem Gokmen, Daniel Ho, Mohi Khansari
- Abstract要約: 本稿では,行動クローン化政策と協調して,状態値関数を学習する手法である行動クローン値近似(BCVA)を導入する。
我々は,ラッチドア開口の移動操作課題にBCVAを適用し,BCVAの有効性を実証した。
- 参考スコア(独自算出の注目度): 8.993237527071756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in end-to-end Imitation Learning approaches has shown
promising results and generalization capabilities on mobile manipulation tasks.
Such models are seeing increasing deployment in real-world settings, where
scaling up requires robots to be able to operate with high autonomy, i.e.
requiring as little human supervision as possible. In order to avoid the need
for one-on-one human supervision, robots need to be able to detect and prevent
policy failures ahead of time, and ask for help, allowing a remote operator to
supervise multiple robots and help when needed. However, the black-box nature
of end-to-end Imitation Learning models such as Behavioral Cloning, as well as
the lack of an explicit state-value representation, make it difficult to
predict failures. To this end, we introduce Behavioral Cloning Value
Approximation (BCVA), an approach to learning a state value function based on
and trained jointly with a Behavioral Cloning policy that can be used to
predict failures. We demonstrate the effectiveness of BCVA by applying it to
the challenging mobile manipulation task of latched-door opening, showing that
we can identify failure scenarios with with 86% precision and 81% recall,
evaluated on over 2000 real world runs, improving upon the baseline of simple
failure classification by 10 percentage-points.
- Abstract(参考訳): エンド・ツー・エンドの模倣学習アプローチの最近の進歩は、モバイル操作タスクにおける有望な結果と一般化能力を示している。
このようなモデルは、ロボットが高い自律性、すなわち可能な限り人間の監督を必要とせずに運用できるような、現実の環境での展開を増加させています。
1対1の人間の監督の必要性を避けるために、ロボットは政策の失敗を事前に検知し、予防し、助けを求める必要がある。
しかしながら、行動的クローンのようなエンドツーエンドの模倣学習モデルのブラックボックスの性質は、明示的な状態値表現の欠如とともに、失敗を予測するのが困難である。
この目的のために、動作クローン値近似(BCVA)を導入し、状態値関数を学習し、障害の予測に使用できる行動クローンポリシーと協調して訓練する手法を提案する。
提案手法をラッチドドア開口の難解な移動操作タスクに適用することにより,2000 以上の実世界実行で評価した86%の精度と81%のリコールで障害シナリオを識別でき,簡易故障分類のベースラインを10ポイント改善できることを示す。
関連論文リスト
- Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文 参考訳(メタデータ) (2023-10-26T16:45:44Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment
Regularization [57.71118589124002]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Distributional Instance Segmentation: Modeling Uncertainty and High
Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。
ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。
本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-05-03T05:57:29Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Optimal decision making in robotic assembly and other trial-and-error
tasks [1.0660480034605238]
本研究では,(1)終末成功/失敗の低エントロピー指標と(2)信頼できない(高エントロピー)データを提供する問題のクラスについて検討し,課題の最終結果を予測する。
フェール予測器の混乱行列に基づいてメイスパンを予測する閉形式解を導出する。
これにより、ロボットはプロダクション環境で障害予測を学習し、実際に時間を節約したときのみプリエンプティブポリシーを採用することができる。
論文 参考訳(メタデータ) (2023-01-25T22:07:50Z) - Efficiently Learning Recoveries from Failures Under Partial
Observability [31.891933360081342]
本稿では,サンプル効率のよい操作戦略を構築するための一般的な手法を提案する。
当社のアプローチは,現在の戦略の障害モードを最初に発見することで,ロバストネスを漸進的に向上します。
提案手法は, ドア開きの回復スキルを学習し, シミュレーションと実際のロボットを用いて, 微調整をほとんど行わずに評価する。
論文 参考訳(メタデータ) (2022-09-27T18:00:55Z) - Active Uncertainty Learning for Human-Robot Interaction: An Implicit
Dual Control Approach [5.05828899601167]
暗黙的な二重制御パラダイムに基づくループ内動作計画のための不確実性学習を実現するアルゴリズムを提案する。
提案手法は,動的プログラミングモデル予測制御問題のサンプリングに基づく近似に依拠する。
結果として得られたポリシーは、連続的およびカテゴリー的不確実性を持つ一般的な人間の予測モデルに対する二重制御効果を維持することが示されている。
論文 参考訳(メタデータ) (2022-02-15T20:40:06Z) - ThriftyDAgger: Budget-Aware Novelty and Risk Gating for Interactive
Imitation Learning [23.177329496817105]
ThriftyDAgger(スリフティダガー)は、人間の介入の予算が与えられたら、人間の上司に問い合わせるアルゴリズムである。
実験により、ThriftyDAggerの介入基準はタスクのパフォーマンスとオーバヘッドを以前のアルゴリズムよりも効果的にバランスしていることが示唆された。
論文 参考訳(メタデータ) (2021-09-17T01:21:16Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。