論文の概要: To Do or Not to Do: Ensuring the Safety of Visuomotor Policies Learned from Demonstrations
- arxiv url: http://arxiv.org/abs/2605.01201v1
- Date: Sat, 02 May 2026 02:39:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.63598
- Title: To Do or Not to Do: Ensuring the Safety of Visuomotor Policies Learned from Demonstrations
- Title(参考訳): やるべきでないこと:デモから学んだバイオマスの安全確保
- Authors: Riad Ahmed, Moniruzzaman Akash, Momotaz Begum,
- Abstract要約: タスク成功は歴史的に、模倣学習(IL)研究における政策パフォーマンスの主要な尺度である。
安全が保証されていなければ、ポリシーをロールアウトせず、パフォーマンスが劣る分野において、IL駆動ロボットが望ましい場合が多い。
本稿では,ビジュモータILポリシーのタスク成功を最大化するための,ポリシーに依存しない安全対策である実行保証を提案する。
- 参考スコア(独自算出の注目度): 1.376408511310322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task success has historically been the primary measure of policy performance in imitation learning (IL) research. This characteristics strictly limits the ubiquitous applications of IL algorithms in field robotics where safety assurance, in addition to task-success, is of paramount importance. It is often desirable for an IL-powered robot in the field not to roll out a policy, and hence score a poor performance, if the safety is not guaranteed. Although this trade-off between safety and performance is well investigated in classical control literature, policy safety is a heavily underexplored domain in IL research. There is no universal definition of safety in IL. To make things worst, many existing theoretical works on safety is notoriously difficult to extend to IL-powered robots in the field. This paper offers important insights on the safety and performance of IL policies. We propose execution guarantee, a policy-agnostic safety measure that guarantees the maximum task success for a visuomotor IL policy, despite minor run-time changes, from within a specific region in the state space. We leverage recent advances in view synthesis to identify such regions in the state space for an IL policy and explore a fundamental result on set invariance - namely, Nagumo's sub-tangentiality condition - to prove and operationalize execution guarantee from inside that region. Experiments with a Franka robot, both in simulation and real world, demonstrate how the proposed safety analysis allows various IL policies to achieve maximum task success with guarantee. We also demonstrate some interesting results on how a recovery policy - a by-product of the proposed safety analysis - can help to increase the policy performance and thereby mitigating the safety-performance tradeoff in IL.
- Abstract(参考訳): タスク成功は歴史的に、模倣学習(IL)研究における政策パフォーマンスの主要な尺度である。
この特徴は、タスク・サクセスに加えて、安全保証が最重要となるフィールドロボティクスにおけるILアルゴリズムのユビキタスな適用を厳しく制限する。
安全が保証されていなければ、ポリシーをロールアウトせず、パフォーマンスが劣る分野において、IL駆動ロボットが望ましい場合が多い。
この安全と性能のトレードオフは古典的な制御文学においてよく研究されているが、政策安全はIL研究において過小評価されている分野である。
ILの安全性の普遍的な定義は存在しない。
最悪の事態に対処するため、既存の安全に関する理論的研究の多くは、現場のIL駆動ロボットに拡張することが難しいことで知られている。
本稿では,ILポリシーの安全性と性能に関する重要な知見を提供する。
本研究では,国家空間の特定の領域内から,小規模な実行時変化にもかかわらず,ビジュモータILポリシーのタスク成功を最大化する政策非依存の安全策である実行保証を提案する。
我々は、ビュー合成の最近の進歩を活用して、ILポリシーの状態空間におけるそのような領域を識別し、設定不変性(ナグモの準特異性条件)に関する基礎的な結果を探索し、その領域の内部から実行保証を証明し、運用する。
シミュレーションと実世界の両方で、Frankaロボットを用いた実験は、提案された安全分析によって、様々なILポリシーが、いかにして最大限のタスク成功を保証できるかを実証する。
また,提案した安全分析の副産物である回収政策が,政策性能の向上に寄与し,ILの安全性と性能のトレードオフを軽減できることを示す。
関連論文リスト
- Safety Representations for Safer Policy Learning [12.492942288509878]
安全クリティカルな応用では、国家空間の探索は破滅的な結果をもたらす可能性がある。
既存の安全な探査手法は、制約を課すことによってこれを緩和しようとする。
状態条件付き安全表現を明示的に学習する手法を提案する。
論文 参考訳(メタデータ) (2025-02-27T18:10:33Z) - Test Where Decisions Matter: Importance-driven Testing for Deep Reinforcement Learning [7.0247398611254175]
多くのDeep Reinforcement Learning (RL) 問題では、トレーニングされたポリシーにおける決定は、ポリシーの期待される安全性と性能において重要である。
状態空間全体にわたる状態重要度ランキングを厳格に計算する新しいモデルベース手法を提案する。
次に、最もランクの高い州にテストの取り組みを集中させます。
論文 参考訳(メタデータ) (2024-11-12T10:26:44Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Safe Reinforcement Learning with Dead-Ends Avoidance and Recovery [13.333197887318168]
安全は、現実的な環境課題に強化学習を適用する上で大きな課題の1つである。
安全かつ安全でない状態を識別する境界を構築する手法を提案する。
我々の手法は、最先端のアルゴリズムよりも安全性違反が少ないタスク性能を持つ。
論文 参考訳(メタデータ) (2023-06-24T12:02:50Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z) - Feasible Actor-Critic: Constrained Reinforcement Learning for Ensuring
Statewise Safety [1.9573380763700712]
本稿では,モデルレス制約付き安全な強化学習法であるFACアルゴリズムを提案する。
我々は、どの政策を選択しても本質的に安全ではないと主張する州もあるが、他の州には安全を保証する政策があり、そのような州や政策は実現可能であると我々は主張する。
我々は,FACが制約満足度と報酬最適化の両方の観点から,従来の予測に基づく制約付きRL法より優れていることを理論的に保証する。
論文 参考訳(メタデータ) (2021-05-22T10:40:58Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Provably Safe PAC-MDP Exploration Using Analogies [87.41775218021044]
安全クリティカルドメインに強化学習を適用する上での課題は、探索と安全性のバランスをとる方法を理解することだ。
我々は,未知のダイナミックスを持つMDPにおいて,確実に安全な探索を行うアルゴリズムであるAnalogous Safe-State Exploration (ASE)を提案する。
提案手法は, PAC-MDP 感覚の準最適政策を安全に学習するために, 状態-作用対間の類似性を利用する。
論文 参考訳(メタデータ) (2020-07-07T15:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。