Fugu-MT 論文翻訳(概要): Asking for Help: Failure Prediction in Behavioral Cloning through Value Approximation

論文の概要: Asking for Help: Failure Prediction in Behavioral Cloning through Value Approximation

arxiv url: http://arxiv.org/abs/2302.04334v1
Date: Wed, 8 Feb 2023 20:56:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-10 17:35:42.167572
Title: Asking for Help: Failure Prediction in Behavioral Cloning through Value Approximation
Title（参考訳）: 支援を求める: 値近似による行動クローニングにおける障害予測
Authors: Cem Gokmen, Daniel Ho, Mohi Khansari
Abstract要約: 本稿では,行動クローン化政策と協調して,状態値関数を学習する手法である行動クローン値近似(BCVA)を導入する。我々は,ラッチドア開口の移動操作課題にBCVAを適用し,BCVAの有効性を実証した。
参考スコア（独自算出の注目度）: 8.993237527071756
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in end-to-end Imitation Learning approaches has shown promising results and generalization capabilities on mobile manipulation tasks. Such models are seeing increasing deployment in real-world settings, where scaling up requires robots to be able to operate with high autonomy, i.e. requiring as little human supervision as possible. In order to avoid the need for one-on-one human supervision, robots need to be able to detect and prevent policy failures ahead of time, and ask for help, allowing a remote operator to supervise multiple robots and help when needed. However, the black-box nature of end-to-end Imitation Learning models such as Behavioral Cloning, as well as the lack of an explicit state-value representation, make it difficult to predict failures. To this end, we introduce Behavioral Cloning Value Approximation (BCVA), an approach to learning a state value function based on and trained jointly with a Behavioral Cloning policy that can be used to predict failures. We demonstrate the effectiveness of BCVA by applying it to the challenging mobile manipulation task of latched-door opening, showing that we can identify failure scenarios with with 86% precision and 81% recall, evaluated on over 2000 real world runs, improving upon the baseline of simple failure classification by 10 percentage-points.
Abstract（参考訳）: エンド・ツー・エンドの模倣学習アプローチの最近の進歩は、モバイル操作タスクにおける有望な結果と一般化能力を示している。このようなモデルは、ロボットが高い自律性、すなわち可能な限り人間の監督を必要とせずに運用できるような、現実の環境での展開を増加させています。 1対1の人間の監督の必要性を避けるために、ロボットは政策の失敗を事前に検知し、予防し、助けを求める必要がある。しかしながら、行動的クローンのようなエンドツーエンドの模倣学習モデルのブラックボックスの性質は、明示的な状態値表現の欠如とともに、失敗を予測するのが困難である。この目的のために、動作クローン値近似(BCVA)を導入し、状態値関数を学習し、障害の予測に使用できる行動クローンポリシーと協調して訓練する手法を提案する。提案手法をラッチドドア開口の難解な移動操作タスクに適用することにより,2000 以上の実世界実行で評価した86%の精度と81%のリコールで障害シナリオを識別でき,簡易故障分類のベースラインを10ポイント改善できることを示す。

関連論文リスト

Action Flow Matching for Continual Robot Learning [57.698553219660376]
ロボット工学における継続的な学習は、変化する環境やタスクに常に適応できるシステムを求める。本稿では,オンラインロボット力学モデルアライメントのためのフローマッチングを利用した生成フレームワークを提案する。ロボットは,不整合モデルで探索するのではなく,行動自体を変換することで,より効率的に情報収集を行う。
論文参考訳（メタデータ） (2025-04-25T16:26:15Z)
Zero-Shot Whole-Body Humanoid Control via Behavioral Foundation Models [71.34520793462069]
教師なし強化学習(RL)は、複雑な環境下で幅広い下流タスクを解くことができる事前学習エージェントを目標としている。本稿では,ラベルのない行動データセットからトラジェクトリを模倣するための,教師なしRLの正規化アルゴリズムを提案する。我々は,この手法の有効性を,挑戦的なヒューマノイド制御問題において実証する。
論文参考訳（メタデータ） (2025-04-15T10:41:11Z)
Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models [3.076241811701216]
本研究では,拡散政策が人的援助を必要時にのみ積極的に求め,一定の人的監視への依存を減らす方法を提案する。我々は、拡散政策の生成過程を利用して、自律エージェントが展開時にオペレーター支援を要求できる不確実性に基づくメトリクスを計算する。この手法は, 自律的な性能向上のために, 微調整拡散ポリシーの効率的なデータ収集に有効であることを示す。
論文参考訳（メタデータ） (2025-02-26T15:12:29Z)
Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文参考訳（メタデータ） (2024-07-11T17:31:01Z)
Conformalized Teleoperation: Confidently Mapping Human Inputs to High-Dimensional Robot Actions [4.855534476454559]
低次元人間の入力から高次元ロボット動作へのマッピングを学習する。我々のキーとなる考え方は、訓練時に補助地図を適応させ、高次元のアクション量子化を付加的に見積もることである。本研究では,不確実なユーザ入力やロボットの状態を検出する不確実なインターバル機構を提案する。
論文参考訳（メタデータ） (2024-06-11T23:16:46Z)
IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning [43.19346528232497]
分散シフトに対するポリシーロバスト性を高めるための一般的なアプローチは、インタラクティブな模倣学習である。我々は,大規模な修正介入を自律的に生成できる新しいデータ生成システムであるIntervenGenを提案する。人的介入が10回しかなく、政策の堅牢性を最大39倍に向上できることを示す。
論文参考訳（メタデータ） (2024-05-02T17:06:19Z)
Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文参考訳（メタデータ） (2023-10-26T16:45:44Z)
Distributional Instance Segmentation: Modeling Uncertainty and High Confidence Predictions with Latent-MaskRCNN [77.0623472106488]
本稿では,潜在符号を用いた分散インスタンス分割モデルのクラスについて検討する。ロボットピッキングへの応用として,高い精度を実現するための信頼性マスク手法を提案する。本手法は,新たにリリースした曖昧なシーンのデータセットを含め,ロボットシステムにおける致命的なエラーを著しく低減できることを示す。
論文参考訳（メタデータ） (2023-05-03T05:57:29Z)
Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文参考訳（メタデータ） (2023-03-02T18:51:38Z)
Optimal decision making in robotic assembly and other trial-and-error tasks [1.0660480034605238]
本研究では,(1)終末成功/失敗の低エントロピー指標と(2)信頼できない(高エントロピー)データを提供する問題のクラスについて検討し,課題の最終結果を予測する。フェール予測器の混乱行列に基づいてメイスパンを予測する閉形式解を導出する。これにより、ロボットはプロダクション環境で障害予測を学習し、実際に時間を節約したときのみプリエンプティブポリシーを採用することができる。
論文参考訳（メタデータ） (2023-01-25T22:07:50Z)
Efficiently Learning Recoveries from Failures Under Partial Observability [31.891933360081342]
本稿では,サンプル効率のよい操作戦略を構築するための一般的な手法を提案する。当社のアプローチは,現在の戦略の障害モードを最初に発見することで,ロバストネスを漸進的に向上します。提案手法は, ドア開きの回復スキルを学習し, シミュレーションと実際のロボットを用いて, 微調整をほとんど行わずに評価する。
論文参考訳（メタデータ） (2022-09-27T18:00:55Z)
Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。 VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文参考訳（メタデータ） (2021-07-27T16:39:45Z)
Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文参考訳（メタデータ） (2020-12-12T05:30:35Z)
Adversarial vs behavioural-based defensive AI with joint, continual and active learning: automated evaluation of robustness to deception, poisoning and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文参考訳（メタデータ） (2020-01-13T13:54:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。