論文の概要: Failure Prediction at Runtime for Generative Robot Policies
- arxiv url: http://arxiv.org/abs/2510.09459v1
- Date: Fri, 10 Oct 2025 15:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.94975
- Title: Failure Prediction at Runtime for Generative Robot Policies
- Title(参考訳): 生成ロボットポリシー実行時の故障予測
- Authors: Ralf Römer, Adrian Kobras, Luca Worbis, Angela P. Schoellig,
- Abstract要約: 実行中の早期の障害予測は、人間中心で安全クリティカルな環境でロボットをデプロイするために不可欠である。
本稿では,フェールデータを必要としない生成ロボットポリシーの故障予測フレームワークであるFIPERを提案する。
その結果、FIPERは実際の障害と良質なOOD状況とをよく区別し、既存の手法よりも正確に早期に障害を予測できることがわかった。
- 参考スコア(独自算出の注目度): 6.375597233389154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning (IL) with generative models, such as diffusion and flow matching, has enabled robots to perform complex, long-horizon tasks. However, distribution shifts from unseen environments or compounding action errors can still cause unpredictable and unsafe behavior, leading to task failure. Early failure prediction during runtime is therefore essential for deploying robots in human-centered and safety-critical environments. We propose FIPER, a general framework for Failure Prediction at Runtime for generative IL policies that does not require failure data. FIPER identifies two key indicators of impending failure: (i) out-of-distribution (OOD) observations detected via random network distillation in the policy's embedding space, and (ii) high uncertainty in generated actions measured by a novel action-chunk entropy score. Both failure prediction scores are calibrated using a small set of successful rollouts via conformal prediction. A failure alarm is triggered when both indicators, aggregated over short time windows, exceed their thresholds. We evaluate FIPER across five simulation and real-world environments involving diverse failure modes. Our results demonstrate that FIPER better distinguishes actual failures from benign OOD situations and predicts failures more accurately and earlier than existing methods. We thus consider this work an important step towards more interpretable and safer generative robot policies. Code, data and videos are available at https://tum-lsy.github.io/fiper_website.
- Abstract(参考訳): 拡散やフローマッチングなどの生成モデルを用いた模倣学習(IL)により、ロボットは複雑な長距離タスクを実行できるようになった。
しかしながら、予期せぬ環境や複雑なアクションエラーからの分散シフトは、予測不可能で安全でない振る舞いを引き起こす可能性があるため、タスクの失敗につながる。
したがって、実行中の早期の障害予測は、人間中心で安全クリティカルな環境にロボットを配置するために不可欠である。
本稿では,障害データを必要としない生成ILポリシに対して,実行時の障害予測のための一般的なフレームワークであるFIPERを提案する。
FIPERは、差し迫った失敗の2つの重要な指標を特定します。
(i)政策の埋め込み空間におけるランダムネットワーク蒸留により検出されたアウト・オブ・ディストリビューション(OOD)観測、及び
(II)新しいアクションチャンクエントロピースコアによって測定された生成行動の不確実性が高い。
両方の故障予測スコアは、共形予測を通じて小さな成功ロールアウトセットを使用して校正される。
両方のインジケータが短時間のウィンドウに集約され、しきい値を超えると、障害アラームがトリガーされる。
各種故障モードを含む5つのシミュレーション環境および実環境におけるFIPERの評価を行った。
その結果、FIPERは実際の障害と良質なOOD状況とをよく区別し、既存の手法よりも正確に早期に障害を予測できることがわかった。
そこで本研究は,より解釈可能な,より安全な生成ロボットポリシーに向けた重要なステップであると考えている。
コード、データ、ビデオはhttps://tum-lsy.github.io/fiper_website.orgで公開されている。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [74.56971641937771]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent [9.370683025542686]
本稿では,サブタスク境界における障害の検出と修正を行う,アクティブなリプランニングフレームワークを提案する。
AI2-THORシミュレータの実験では,実行障害発生前の意味的および空間的ミスマッチを検出する。
論文 参考訳(メタデータ) (2025-08-15T07:48:51Z) - Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies [19.27526590452503]
FAIL-Detectは、模倣学習に基づくロボット操作における障害検出のための2段階のアプローチである。
まず、政策失敗と相関し、不確実性を捉えるスカラー信号にポリシー入力と出力を蒸留する。
我々の実験は、新しいフローベース密度推定器を使用する場合、学習信号がほぼ一貫した効果を示す。
論文 参考訳(メタデータ) (2025-03-11T15:47:12Z) - Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress [31.952925824381325]
本稿では,障害検出を補完する2つのカテゴリに分割するランタイム監視フレームワークを提案する。
視覚言語モデル(VLM)を用いて、ポリシーがタスクを解決しないアクションを確実かつ一貫して行うことを検知する。
時間的一貫性検出とVLMランタイム監視を統一することにより、Sentinelは2つの検出器のみを使用する場合よりも18%の障害を検出する。
論文 参考訳(メタデータ) (2024-10-06T22:13:30Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。