論文の概要: Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.15688v2
- Date: Sun, 30 Mar 2025 04:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:28:36.602599
- Title: Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning
- Title(参考訳): 人間の介入による強化学習によるロボット消化内視鏡の安全ナビゲーション
- Authors: Min Tan, Yushun Tao, Boyun Zheng, GaoSheng Xie, Lijuan Feng, Zeyang Xia, Jing Xiong,
- Abstract要約: 既存の強化学習ナビゲーションアルゴリズムは、しばしば潜在的に危険な衝突を引き起こす。
RDEの安全性を高めるために専門家の知識を取り入れたHI-PPOと呼ばれるHuman Intervention(HI)ベースのプロキシポリシー最適化フレームワークを提案する。
その結果、HI-PPO は平均 ATE (8.02 textmm) とセキュリティスコア (0.862) を達成し、人間の専門家に匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 5.520042381826271
- License:
- Abstract: With the increasing application of automated robotic digestive endoscopy (RDE), ensuring safe and efficient navigation in the unstructured and narrow digestive tract has become a critical challenge. Existing automated reinforcement learning navigation algorithms often result in potentially risky collisions due to the absence of essential human intervention, which significantly limits the safety and effectiveness of RDE in actual clinical practice. To address this limitation, we proposed a Human Intervention (HI)-based Proximal Policy Optimization (PPO) framework, dubbed HI-PPO, which incorporates expert knowledge to enhance RDE's safety. Specifically, HI-PPO combines Enhanced Exploration Mechanism (EEM), Reward-Penalty Adjustment (RPA), and Behavior Cloning Similarity (BCS) to address PPO's exploration inefficiencies for safe navigation in complex gastrointestinal environments. Comparative experiments were conducted on a simulation platform, and the results showed that HI-PPO achieved a mean ATE (Average Trajectory Error) of \(8.02\ \text{mm}\) and a Security Score of \(0.862\), demonstrating performance comparable to human experts. The code will be publicly available once this paper is published.
- Abstract(参考訳): 自動消化内視鏡(RDE)の応用が進むにつれて、非構造的かつ狭い消化管における安全かつ効率的なナビゲーションの確保が重要な課題となっている。
既存の自動強化学習ナビゲーションアルゴリズムは、人間の介入が欠如しているため、潜在的に危険な衝突を引き起こし、実際の臨床実践におけるRDEの安全性と有効性を著しく制限する。
この制限に対処するため,RDEの安全性を高めるために専門家の知識を取り入れたHuman Intervention (HI)-based Proximal Policy Optimization (PPO) フレームワーク HI-PPO を提案した。
特に、HI-PPOは、複雑な消化管環境における安全なナビゲーションのためのPPOの探索の非効率性に対処するために、強化探索機構(EEM)、Reward-Penalty Adjustment(RPA)、および振舞いクローン類似性(BCS)を組み合わせる。
シミュレーションプラットフォーム上で比較実験を行い, HI-PPO が平均 ATE (Average Trajectory Error) of \(8.02\ \text{mm}\) とセキュリティスコア (Security Score of \(0.862\) を達成し, 人間の専門家に匹敵する性能を示した。
この論文が公開されたら、コードは公開されます。
関連論文リスト
- ETSM: Automating Dissection Trajectory Suggestion and Confidence Map-Based Safety Margin Prediction for Robot-assisted Endoscopic Submucosal Dissection [10.2380174289706]
ESD Trajectory and Confidence Map-based Safety (ETSM)データセットを1849ドルの短いクリップで作成し、デュアルアームロボットシステムによる粘膜下剥離に焦点を当てた。
また、最適解離軌道予測と信頼マップに基づく安全マージンを組み合わせたフレームワークも導入する。
提案手法は, 予測精度の向上と解離プロセスの安全性の向上により, 現在の研究におけるギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-11-28T03:19:18Z) - ADAPT: A Game-Theoretic and Neuro-Symbolic Framework for Automated Distributed Adaptive Penetration Testing [13.101825065498552]
AIを医療などの現代的なクリティカルインフラストラクチャシステムに統合することで、新たな脆弱性が導入された。
ADAPTは、自動分散適応浸透テストのためのゲーム理論およびニューロシンボリックフレームワークである。
論文 参考訳(メタデータ) (2024-10-31T21:32:17Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - RAISE -- Radiology AI Safety, an End-to-end lifecycle approach [5.829180249228172]
放射線学へのAIの統合は、臨床ケアの供給と効率を改善する機会をもたらす。
モデルが安全性、有効性、有効性の最高基準を満たすことに注力すべきである。
ここで提示されるロードマップは、放射線学におけるデプロイ可能で信頼性があり、安全なAIの達成を早めることを目的としている。
論文 参考訳(メタデータ) (2023-11-24T15:59:14Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement [61.28459114068828]
安全な深部強化学習(DRL)に基づく訓練経路計画にリアルタイムな観察を活用するロボット脊椎手術の術中計画手法を提案する。
本手法は,ゴールドスタンダード (GS) 掘削計画に関して,90%の骨貫通を達成できた。
論文 参考訳(メタデータ) (2023-05-09T11:42:53Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - A Novel Sample-efficient Deep Reinforcement Learning with Episodic
Policy Transfer for PID-Based Control in Cardiac Catheterization Robots [2.3939470784308914]
このモデルは、血管内カテーテル用に設計されたロボットシステムの軸方向運動制御のために検証された。
従来の10試行法と比較すると,0.003mmの誤差で利得を調整できることがわかった。
論文 参考訳(メタデータ) (2021-10-28T08:18:01Z) - Learning for Dose Allocation in Adaptive Clinical Trials with Safety
Constraints [84.09488581365484]
新しい化合物の有効性と毒性の関係がより複雑になるにつれて、第1相線量測定試験はますます困難になっている。
最も一般的に使われている方法は、毒性事象のみから学習することで、最大許容量(MTD)を特定することである。
本稿では, 毒性安全性の制約を高い確率で満たしつつ, 累積効果を最大化することを目的とした, 適応型臨床試験手法を提案する。
論文 参考訳(メタデータ) (2020-06-09T03:06:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。