論文の概要: Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- arxiv url: http://arxiv.org/abs/2410.04640v2
- Date: Thu, 10 Oct 2024 17:09:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 01:03:22.919794
- Title: Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress
- Title(参考訳): 生成ポリシの障害モードのアンパック:一貫性と進捗の監視
- Authors: Christopher Agia, Rohan Sinha, Jingyun Yang, Zi-ang Cao, Rika Antonova, Marco Pavone, Jeannette Bohg,
- Abstract要約: 本稿では,障害検出を補完する2つのカテゴリに分割するランタイム監視フレームワークを提案する。
視覚言語モデル(VLM)を用いて、ポリシーがタスクを解決しないアクションを確実かつ一貫して行うことを検知する。
時間的一貫性検出とVLMランタイム監視を統一することにより、Sentinelは2つの検出器のみを使用する場合よりも18%の障害を検出する。
- 参考スコア(独自算出の注目度): 31.952925824381325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robot behavior policies trained via imitation learning are prone to failure under conditions that deviate from their training data. Thus, algorithms that monitor learned policies at test time and provide early warnings of failure are necessary to facilitate scalable deployment. We propose Sentinel, a runtime monitoring framework that splits the detection of failures into two complementary categories: 1) Erratic failures, which we detect using statistical measures of temporal action consistency, and 2) task progression failures, where we use Vision Language Models (VLMs) to detect when the policy confidently and consistently takes actions that do not solve the task. Our approach has two key strengths. First, because learned policies exhibit diverse failure modes, combining complementary detectors leads to significantly higher accuracy at failure detection. Second, using a statistical temporal action consistency measure ensures that we quickly detect when multimodal, generative policies exhibit erratic behavior at negligible computational cost. In contrast, we only use VLMs to detect failure modes that are less time-sensitive. We demonstrate our approach in the context of diffusion policies trained on robotic mobile manipulation domains in both simulation and the real world. By unifying temporal consistency detection and VLM runtime monitoring, Sentinel detects 18% more failures than using either of the two detectors alone and significantly outperforms baselines, thus highlighting the importance of assigning specialized detectors to complementary categories of failure. Qualitative results are made available at https://sites.google.com/stanford.edu/sentinel.
- Abstract(参考訳): 模倣学習を通じて訓練されたロボットの行動ポリシーは、トレーニングデータから逸脱する条件下で失敗する傾向がある。
したがって、スケーラブルなデプロイメントを容易にするためには、学習したポリシをテスト時に監視し、失敗の早期警告を提供するアルゴリズムが必要である。
障害検出を補完する2つのカテゴリに分割する,ランタイム監視フレームワークであるSentinelを提案する。
1)時間的行動整合性の統計測度を用いて検出するエラー
2) タスク進行障害では、視覚言語モデル(VLM)を使用して、ポリシーがタスクを解決しないアクションを確実かつ一貫して行うことを検出する。
私たちのアプローチには2つの重要な長所があります。
第一に、学習されたポリシーは様々な障害モードを示すため、補完的な検出器を組み合わせることで、障害検出の精度が大幅に向上する。
第二に、統計的時間的行動整合性尺度を用いることで、多重モーダルな生成ポリシーが無視可能な計算コストで不規則な振る舞いを示すことを迅速に検出できる。
対照的に、VLMは時間に敏感でない障害モードを検出するためにのみ使用します。
シミュレーションと実世界の両方において、ロボット移動操作領域で訓練された拡散ポリシーの文脈において、我々のアプローチを実証する。
時間的整合性検出とVLMランタイム監視を統一することにより、Sentinelは2つの検出器を単独で使用するよりも18%の障害を検知し、ベースラインを大幅に上回る。
質的な結果はhttps://sites.google.com/stanford.edu/sentinel.comで公開されている。
関連論文リスト
- Bidirectional Decoding: Improving Action Chunking via Closed-Loop Resampling [51.38330727868982]
双方向デコーディング(BID)は、クローズドループ操作で動作チャンキングをブリッジするテスト時間推論アルゴリズムである。
BIDは、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - Learning Recovery Strategies for Dynamic Self-healing in Reactive
Systems [1.7218973692320518]
自己修復システムは、既知の障害状態から回復するための事前定義された命令のセットに従うことに依存する。
本提案では,システム特性の満足度条件を規定する述語としてモニタを定義する。
我々は、強化学習に基づく手法を用いて、ユーザの修正シーケンスに基づいた回復戦略を学習する。
論文 参考訳(メタデータ) (2024-01-22T23:34:21Z) - Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文 参考訳(メタデータ) (2023-10-26T16:45:44Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Prepare for Trouble and Make it Double. Supervised and Unsupervised
Stacking for AnomalyBased Intrusion Detection [4.56877715768796]
メタラーニングを2層スタックの形で導入し、既知の脅威と未知の脅威の両方を検出する混合アプローチを提案する。
その結果、教師付きアルゴリズムよりもゼロデイ攻撃の検出に効果があり、主要な弱点は限定されているものの、既知の攻撃を検出するのに十分な能力を維持していることがわかった。
論文 参考訳(メタデータ) (2022-02-28T08:41:32Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。