論文の概要: SSP: Safety-guaranteed Surgical Policy via Joint Optimization of Behavioral and Spatial Constraints
- arxiv url: http://arxiv.org/abs/2603.07032v1
- Date: Sat, 07 Mar 2026 04:28:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.030656
- Title: SSP: Safety-guaranteed Surgical Policy via Joint Optimization of Behavioral and Spatial Constraints
- Title(参考訳): SSP:行動・空間制約の協調最適化による安全保証手術方針
- Authors: Jianshu Hu, ZhiYuan Guan, Lei Song, Kantaphat Leelakunwet, Hesheng Wang, Wei Xiao, Qi Dou, Yutong Ban,
- Abstract要約: データ駆動の汎用性と形式的安全性のギャップを埋めるための安全保証型手術ポリシーフレームワークを提案する。
本手法は,タスク成功率を維持しつつ,ほぼゼロの制約違反率を達成する。
- 参考スコア(独自算出の注目度): 35.97326090311664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paradigm of robot-assisted surgery is shifting toward data-driven autonomy, where policies learned via Reinforcement Learning (RL) or Imitation Learning (IL) enable the execution of complex tasks. However, these ``black-box" policies often lack formal safety guarantees, a critical requirement for clinical deployment. In this paper, we propose the Safety-guaranteed Surgical Policy (SSP) framework to bridge the gap between data-driven generality and formal safety. We utilize Neural Ordinary Differential Equations (Neural ODEs) to learn an uncertainty-aware dynamics model from demonstration data. This learned model underpins a robust Control Barrier Function (CBF) safety controller, which minimally alters the actions of a surgical policy to ensure strict safety under uncertainty. Our controller enforces two constraint categories: behavioral constraints (restricting the task space of the agent) and spatial constraints (defining surgical no-go zones). We instantiate the SSP framework with surgical policies derived from RL, IL and Control Lyapunov Functions (CLF). Validation on in both the SurRoL simulation and da Vinci Research Kit (dVRK) demonstrates that our method achieves a near-zero constraint violation rate while maintaining high task success rates compared to unconstrained baselines.
- Abstract(参考訳): ロボット支援手術のパラダイムは、RL(Reinforcement Learning)やIL(Imitation Learning)を通じて学んだポリシーが複雑なタスクの実行を可能にする、データ駆動の自律性へと移行しつつある。
しかしながら、これらの「ブラックボックス」ポリシーは、しばしば正式な安全保証を欠いている。
本稿では,データ駆動の汎用性と形式的安全性のギャップを埋めるための安全保証手術ポリシー(SSP)フレームワークを提案する。
実演データから不確実性を考慮した力学モデルを学習するために,ニューラル正規微分方程式(Neural Ordinary Differential Equations,Neural ODEs)を用いる。
この学習モデルは、堅牢な制御バリア機能(CBF)の安全制御を基盤としており、不確実性の下で厳格な安全を確保するために、外科的方針の動作を最小限に変更する。
本制御器は動作制約(エージェントのタスク空間の制限)と空間制約(外科的ノーゴーゾーンの定義)の2つの制約カテゴリを強制する。
RL, IL, Control Lyapunov Functions (CLF) 由来の外科的方針でSSPフレームワークをインスタンス化する。
SurRoLシミュレーションとda Vinci Research Kit(dVRK)の両方での検証により,本手法は非制約ベースラインと比較して高いタスク成功率を維持しつつ,ほぼゼロの制約違反率を達成することが示された。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Sampling-based Safe Reinforcement Learning for Nonlinear Dynamical
Systems [15.863561935347692]
非線形力学系の制御のための安全かつ収束性のある強化学習アルゴリズムを開発した。
制御とRLの交差点における最近の進歩は、ハードセーフティ制約を強制するための2段階の安全フィルタアプローチに従っている。
我々は,古典的な収束保証を享受するRLコントローラを学習する,一段階のサンプリングに基づくハード制約満足度へのアプローチを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:39:20Z) - Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning [33.988698754176646]
本稿では,2つのモジュールからなる条件付き制約付き政策最適化(CCPO)フレームワークを紹介する。
実験の結果,CCPOは安全性とタスク性能の点で基準線を上回っていることがわかった。
これにより、我々のアプローチは実世界の動的アプリケーションに適している。
論文 参考訳(メタデータ) (2023-10-05T17:39:02Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Safe Deep Reinforcement Learning for Multi-Agent Systems with Continuous
Action Spaces [5.553946791700077]
深層政策ネットワークに安全層を追加することにより,多エージェントの深層決定性政策勾配(MADDPG)フレームワークを強化する。
そこで本研究では,ソフト制約を用いた動作補正ステップにおいて,実現不可能な問題を回避することを提案する。
論文 参考訳(メタデータ) (2021-08-09T11:33:46Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。