論文の概要: Learning from Demonstration with Failure Awareness for Safe Robot Navigation
- arxiv url: http://arxiv.org/abs/2604.23360v1
- Date: Sat, 25 Apr 2026 16:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.293987
- Title: Learning from Demonstration with Failure Awareness for Safe Robot Navigation
- Title(参考訳): 安全なロボットナビゲーションのための障害認識によるデモからの学習
- Authors: Xianghui Wang, Siwei Cheng, Shanze Wang, Xinming Zhang, Dan Zhang, Wei Zhang,
- Abstract要約: 我々は、成功と失敗データの役割を明示的に分離する、失敗を意識した学習フレームワークを提案する。
その結果,我々のフレームワークは,タスク成功率を維持しながら衝突率を一定に低減し,異なる環境やロボットプラットフォームにまたがる強力な一般化を示した。
- 参考スコア(独自算出の注目度): 9.244473748733279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from demonstration is widely used for robot navigation, yet it suffers from a fundamental limitation: demonstrations consist predominantly of successful behaviors and provide limited coverage of unsafe states. This limitation leads to poor safety when the robot encounters scenarios beyond the demonstration distribution. Failure experiences, such as collisions, contain essential information about unsafe regions, but remain underutilized. The key difficulty lies in the fact that failure data do not provide valid guidance for action imitation, and their naive incorporation into policy learning often degrades performance. We address this challenge by proposing a failure-aware learning framework that explicitly decouples the roles of success and failure data. In this framework, failure experiences are used to shape value estimation in hazardous regions, while policy learning is restricted to successful demonstrations. This separation enables the effective use of failure data without corrupting policy behavior. We implement this design within an offline reinforcement learning (RL) setting and evaluate it in both simulation and real-world environments. The results show that our framework consistently reduces collision rates while preserving the task success rate, and demonstrate strong generalization across different environments and robot platforms.
- Abstract(参考訳): デモから学ぶことはロボットナビゲーションに広く使われているが、基本的な制限に悩まされている。
この制限は、ロボットがデモ分布を超えてシナリオに遭遇したときの安全性を低下させる。
衝突のような障害経験は、安全でない領域に関する重要な情報を含んでいるが、未利用のままである。
重要な困難は、障害データがアクション模倣の有効なガイダンスを提供していないという事実であり、ポリシー学習への素直な組み込みは、しばしばパフォーマンスを低下させる。
私たちは、成功と失敗データの役割を明示的に分離する、失敗を意識した学習フレームワークを提案することで、この問題に対処します。
このフレームワークでは、障害経験は危険領域における価値推定を形作るのに使われ、ポリシ学習は成功例に制限される。
この分離により、ポリシーの動作を損なうことなく、障害データの有効利用が可能になる。
この設計をオフライン強化学習(RL)設定で実装し、シミュレーションと実環境の両方で評価する。
その結果,我々のフレームワークは,タスク成功率を維持しながら衝突率を一定に低減し,異なる環境やロボットプラットフォームにまたがる強力な一般化を示した。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Guided by Guardrails: Control Barrier Functions as Safety Instructors for Robotic Learning [10.797457293404468]
安全は、私たちの日常生活における学習ベースのロボットシステムの普及を妨げる主要な障害である。
本研究では、エピソード終了のない連続的な負の報酬を適用することによって、これらの時間的効果をシミュレートする新しいアプローチを提案する。
CBFに基づく3つのアプローチを提案し、それぞれが従来のRL法を制御バリア関数と統合し、エージェントに安全な振る舞いの学習を指導する。
論文 参考訳(メタデータ) (2025-05-24T20:29:08Z) - Can We Detect Failures Without Failure Data? Uncertainty-Aware Runtime Failure Detection for Imitation Learning Policies [19.27526590452503]
FAIL-Detectは、模倣学習に基づくロボット操作における障害検出のための2段階のアプローチである。
まず、政策失敗と相関し、不確実性を捉えるスカラー信号にポリシー入力と出力を蒸留する。
我々の実験は、新しいフローベース密度推定器を使用する場合、学習信号がほぼ一貫した効果を示す。
論文 参考訳(メタデータ) (2025-03-11T15:47:12Z) - Curating Demonstrations using Online Experience [52.59275477573012]
また,Demo-SCOREは手作業によるキュレーションを伴わずに,効果的に準最適動作を識別できることが示唆された。
Demo-SCOREは、全てのオリジナルのデモンストレーションで訓練された基本方針と比較して、結果のポリシーにおいて15~35%以上の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2025-03-05T17:58:16Z) - Validity Learning on Failures: Mitigating the Distribution Shift in Autonomous Vehicle Planning [2.3558144417896583]
計画問題は、自律運転フレームワークの基本的な側面を構成する。
この問題に対処するための対策として,失敗に対する妥当性学習,VL(on failure)を提案する。
VL(on failure)は最先端の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:25:18Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Imitation Is Not Enough: Robustifying Imitation with Reinforcement
Learning for Challenging Driving Scenarios [147.16925581385576]
シミュレーション学習と強化学習を組み合わせることで,運転方針の安全性と信頼性が大幅に向上することを示す。
都会の運転データ100万マイル以上でポリシーを訓練し、異なるレベルの衝突確率でグループ化されたテストシナリオにおける有効性を測定する。
論文 参考訳(メタデータ) (2022-12-21T23:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。