論文の概要: Deployment-Time Reliability of Learned Robot Policies
- arxiv url: http://arxiv.org/abs/2603.11400v1
- Date: Thu, 12 Mar 2026 00:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.730943
- Title: Deployment-Time Reliability of Learned Robot Policies
- Title(参考訳): 学習ロボット政策の展開時間信頼性
- Authors: Christopher Agia,
- Abstract要約: 論文は、学習したロボットポリシーの信頼性が、それらの周辺で動作するメカニズムを通じて、デプロイ時にどのように改善できるかを調査する。
まず、障害データやタスク固有の監督を必要とせずに、クローズドループ政策行動の不整合やタスク進捗の逸脱を識別して、差し迫った障害を検出するランタイム監視手法を導入し、次に、評価・最大化の問題としてポリシー調整を定式化することで、影響関数を用いた影響力あるトレーニングデモンストレーションに展開時の成功と失敗をトレースするデータ中心のフレームワークを提案し、その上で、評価と最大化の課題として、信頼性の高い長期タスク実行に対処する。
- 参考スコア(独自算出の注目度): 1.7421265706896534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in learning-based robot manipulation have produced policies with remarkable capabilities. Yet, reliability at deployment remains a fundamental barrier to real-world use, where distribution shift, compounding errors, and complex task dependencies collectively undermine system performance. This dissertation investigates how the reliability of learned robot policies can be improved at deployment time through mechanisms that operate around them. We develop three complementary classes of deployment-time mechanisms. First, we introduce runtime monitoring methods that detect impending failures by identifying inconsistencies in closed-loop policy behavior and deviations in task progress, without requiring failure data or task-specific supervision. Second, we propose a data-centric framework for policy interpretability that traces deployment-time successes and failures to influential training demonstrations using influence functions, enabling principled diagnosis and dataset curation. Third, we address reliable long-horizon task execution by formulating policy coordination as the problem of estimating and maximizing the success probability of behavior sequences, and we extend this formulation to open-ended, language-specified tasks through feasibility-aware task planning. By centering on core challenges of deployment, these contributions advance practical foundations for the reliable, real-world use of learned robot policies. Continued progress on these foundations will be essential for enabling trustworthy and scalable robot autonomy in the future.
- Abstract(参考訳): 学習に基づくロボット操作の最近の進歩は、顕著な能力を持つポリシーを生み出している。
しかし、デプロイ時の信頼性は、分散シフト、複合エラー、複雑なタスク依存がシステムパフォーマンスを損なう現実的な使用の基本的な障壁であり続けています。
この論文は,学習したロボットポリシーの信頼性を,その周辺で動作する機構を通じて,デプロイ時に向上させる方法について考察する。
デプロイ時のメカニズムを補完する3つのクラスを開発する。
まず、障害データやタスク固有の監視を必要とせず、クローズドループポリシーの動作とタスク進捗のずれを識別し、差し迫った障害を検出するランタイムモニタリング手法を提案する。
第2に、デプロイメントタイムの成功と失敗をトレースして、インフルエンス関数を用いた効果的なトレーニングデモンストレーションを行い、原則化された診断とデータセットのキュレーションを可能にする、ポリシーの解釈可能性のためのデータ中心のフレームワークを提案する。
第3に、行動系列の成功確率を推定し、最大化する問題としてポリシー調整を定式化することで、信頼性の高い長期タスク実行に対処し、この定式化を、実現可能性を考慮したタスク計画を通じて、オープンエンドな言語指定タスクに拡張する。
これらの貢献は、デプロイメントの中核的な課題に集中することにより、学習されたロボットポリシーの信頼性と現実的な利用のための実践的な基礎を前進させる。
これらの基盤の継続的な進歩は、将来、信頼できるスケーラブルなロボット自律を可能にするために不可欠である。
関連論文リスト
- Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies [19.27526590452503]
FAIL-Detectは、模倣学習に基づくロボット操作における障害検出のための2段階のアプローチである。
まず、政策失敗と相関し、不確実性を捉えるスカラー信号にポリシー入力と出力を蒸留する。
我々の実験は、新しいフローベース密度推定器を使用する場合、学習信号がほぼ一貫した効果を示す。
論文 参考訳(メタデータ) (2025-03-11T15:47:12Z) - From Mystery to Mastery: Failure Diagnosis for Improving Manipulation Policies [35.18739716338974]
本稿では,臨界故障モード(FM)を自動的に識別するシステムであるロボットマニピュレーション診断(RoboMD)を提案する。
事前訓練された操作ポリシーにおける潜在的なFMの膨大な空間を考慮すると、深層強化学習(deep reinforcement learning, ディープRL)を活用してこれらのFMを探索し、発見する。
非構造環境における未知障害の診断におけるRoboMDの有効性を実証する。
論文 参考訳(メタデータ) (2024-12-03T20:34:51Z) - Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文 参考訳(メタデータ) (2023-10-26T16:45:44Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。