論文の概要: Model-Based Runtime Monitoring with Interactive Imitation Learning
- arxiv url: http://arxiv.org/abs/2310.17552v1
- Date: Thu, 26 Oct 2023 16:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:08:19.924015
- Title: Model-Based Runtime Monitoring with Interactive Imitation Learning
- Title(参考訳): 対話型模倣学習によるモデルベースランタイムモニタリング
- Authors: Huihan Liu, Shivin Dass, Roberto Mart\'in-Mart\'in, Yuke Zhu
- Abstract要約: 本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
- 参考スコア(独自算出の注目度): 30.70994322652745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robot learning methods have recently made great strides, but generalization
and robustness challenges still hinder their widespread deployment. Failing to
detect and address potential failures renders state-of-the-art learning systems
not combat-ready for high-stakes tasks. Recent advances in interactive
imitation learning have presented a promising framework for human-robot
teaming, enabling the robots to operate safely and continually improve their
performances over long-term deployments. Nonetheless, existing methods
typically require constant human supervision and preemptive feedback, limiting
their practicality in realistic domains. This work aims to endow a robot with
the ability to monitor and detect errors during task execution. We introduce a
model-based runtime monitoring algorithm that learns from deployment data to
detect system anomalies and anticipate failures. Unlike prior work that cannot
foresee future failures or requires failure experiences for training, our
method learns a latent-space dynamics model and a failure classifier, enabling
our method to simulate future action outcomes and detect out-of-distribution
and high-risk states preemptively. We train our method within an interactive
imitation learning framework, where it continually updates the model from the
experiences of the human-robot team collected using trustworthy deployments.
Consequently, our method reduces the human workload needed over time while
ensuring reliable task execution. Our method outperforms the baselines across
system-level and unit-test metrics, with 23% and 40% higher success rates in
simulation and on physical hardware, respectively. More information at
https://ut-austin-rpl.github.io/sirius-runtime-monitor/
- Abstract(参考訳): ロボット学習手法は近年大きな進歩を遂げているが、一般化と堅牢性の課題はいまだにその普及を妨げている。
潜在的な障害の検出と対処に失敗すると、最先端の学習システムは高いタスクに対処できない。
インタラクティブな模倣学習の最近の進歩は、ロボットが長期展開を通して安全かつ継続的なパフォーマンス向上を可能にする、人間ロボットチームのための有望なフレームワークを提示している。
それにもかかわらず、既存の方法は通常一定の人間の監督と先制的なフィードバックを必要とし、現実の領域での実用性を制限している。
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
今後の障害を予見したり,トレーニングに障害経験が必要な先行作業とは異なり,本手法は潜在空間ダイナミクスモデルと障害分類器を学習し,将来の動作結果をシミュレートし,分散状態やリスクの高い状態を事前に検出する。
私たちはインタラクティブな模倣学習フレームワークでメソッドをトレーニングし、信頼できるデプロイメントを使用して収集された人間-ロボットチームの経験からモデルを継続的に更新します。
これにより、信頼性の高いタスク実行を確保しながら、時間とともに必要な人的作業量を削減できる。
本手法は,シミュレーションおよび物理ハードウェアにおいて,23%,40%高い成功率で,システムレベルとユニットテストの指標でベースラインを上回っている。
詳細はhttps://ut-austin-rpl.github.io/sirius-runtime-monitor/を参照のこと。
関連論文リスト
- Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Bridging Active Exploration and Uncertainty-Aware Deployment Using
Probabilistic Ensemble Neural Network Dynamics [11.946807588018595]
本稿では,活発な探索と不確実性を考慮した展開を橋渡しするモデルベース強化学習フレームワークを提案する。
探索と展開の対立する2つのタスクは、最先端のサンプリングベースのMPCによって最適化されている。
自動運転車と車輪付きロボットの両方で実験を行い、探索と展開の両方に有望な結果を示します。
論文 参考訳(メタデータ) (2023-05-20T17:20:12Z) - Robot Learning on the Job: Human-in-the-Loop Autonomy and Learning
During Deployment [25.186525630548356]
Siriusは、人間とロボットが共同作業を行うための、原則化されたフレームワークである。
部分的に自律的なロボットは、意思決定の大部分を確実に行うことを任務としている。
タスク実行から収集したデータに対するポリシーの性能を改善するための新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T18:53:39Z) - Don't Start From Scratch: Leveraging Prior Data to Automate Robotic
Reinforcement Learning [70.70104870417784]
強化学習(RL)アルゴリズムは、ロボットシステムの自律的なスキル獲得を可能にするという約束を持っている。
現実のロボットRLは、通常、環境をリセットするためにデータ収集と頻繁な人間の介入を必要とする。
本研究では,従来のタスクから収集した多様なオフラインデータセットを効果的に活用することで,これらの課題にどのように対処できるかを検討する。
論文 参考訳(メタデータ) (2022-07-11T08:31:22Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Adversarial Training is Not Ready for Robot Learning [55.493354071227174]
対人訓練は,ノルム有界摂動に耐性のあるディープラーニングモデルを訓練する有効な方法である。
敵訓練により得られたニューラルコントローラが3種類の欠陥を受けることを理論的および実験的に示す。
この結果から, ロボット学習にはまだ対応できていないことが示唆された。
論文 参考訳(メタデータ) (2021-03-15T07:51:31Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。