論文の概要: Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.15688v1
- Date: Tue, 24 Sep 2024 03:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 09:11:12.513376
- Title: Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning
- Title(参考訳): 人間の介入による強化学習によるロボット消化内視鏡の安全ナビゲーション
- Authors: Min Tan, Yushun Tao, Boyun Zheng, GaoSheng Xie, Lijuan Feng, Zeyang Xia, Jing Xiong,
- Abstract要約: RDE の安全性を高めるため,Human Intervention (HI) をベースとした Pximal Policy Optimization フレームワーク HI-PPO を提案する。
標準PPOの低探査効率に対応するため, 改良探査機構 (EEM) を導入する。
また,初回介入時の安全でない行為を罰する報酬報酬調整(RPA)も導入した。
- 参考スコア(独自算出の注目度): 5.520042381826271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing application of automated robotic digestive endoscopy (RDE), ensuring safe and efficient navigation in the unstructured and narrow digestive tract has become a critical challenge. Existing automated reinforcement learning navigation algorithms, often result in potentially risky collisions due to the absence of essential human intervention, which significantly limits the safety and effectiveness of RDE in actual clinical practice. To address this limitation, we proposed a Human Intervention (HI)-based Proximal Policy Optimization (PPO) framework, dubbed HI-PPO, which incorporates expert knowledge to enhance RDE's safety. Specifically, we introduce an Enhanced Exploration Mechanism (EEM) to address the low exploration efficiency of the standard PPO. Additionally, a reward-penalty adjustment (RPA) is implemented to penalize unsafe actions during initial interventions. Furthermore, Behavior Cloning Similarity (BCS) is included as an auxiliary objective to ensure the agent emulates expert actions. Comparative experiments conducted in a simulated platform across various anatomical colon segments demonstrate that our model effectively and safely guides RDE.
- Abstract(参考訳): 自動消化内視鏡(RDE)の応用が進むにつれて、非構造的かつ狭い消化管における安全かつ効率的なナビゲーションの確保が重要な課題となっている。
既存の自動強化学習ナビゲーションアルゴリズムは、人間の介入が欠如しているため、しばしば潜在的に危険な衝突を引き起こし、実際の臨床実践におけるRDEの安全性と有効性を著しく制限する。
この制限に対処するため,RDEの安全性を高めるために専門家の知識を取り入れたHuman Intervention (HI)-based Proximal Policy Optimization (PPO) フレームワーク HI-PPO を提案した。
具体的には、標準PPOの低探査効率に対応するために、拡張探査機構(EEM)を導入する。
さらに、初期介入時に安全でない行為をペナルティ化するために報酬報酬調整(RPA)が実施される。
さらに、エージェントが専門家の行動をエミュレートするために、行動クローン類似性(BCS)が補助的な目的として含まれる。
各種解剖学的大腸領域にまたがる模擬プラットフォームで行った比較実験により,我々のモデルがRDEを効果的かつ安全にガイドしていることが判明した。
関連論文リスト
- ETSM: Automating Dissection Trajectory Suggestion and Confidence Map-Based Safety Margin Prediction for Robot-assisted Endoscopic Submucosal Dissection [10.2380174289706]
ESD Trajectory and Confidence Map-based Safety (ETSM)データセットを1849ドルの短いクリップで作成し、デュアルアームロボットシステムによる粘膜下剥離に焦点を当てた。
また、最適解離軌道予測と信頼マップに基づく安全マージンを組み合わせたフレームワークも導入する。
提案手法は, 予測精度の向上と解離プロセスの安全性の向上により, 現在の研究におけるギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-11-28T03:19:18Z) - ADAPT: A Game-Theoretic and Neuro-Symbolic Framework for Automated Distributed Adaptive Penetration Testing [13.101825065498552]
AIを医療などの現代的なクリティカルインフラストラクチャシステムに統合することで、新たな脆弱性が導入された。
ADAPTは、自動分散適応浸透テストのためのゲーム理論およびニューロシンボリックフレームワークである。
論文 参考訳(メタデータ) (2024-10-31T21:32:17Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - RAISE -- Radiology AI Safety, an End-to-end lifecycle approach [5.829180249228172]
放射線学へのAIの統合は、臨床ケアの供給と効率を改善する機会をもたらす。
モデルが安全性、有効性、有効性の最高基準を満たすことに注力すべきである。
ここで提示されるロードマップは、放射線学におけるデプロイ可能で信頼性があり、安全なAIの達成を早めることを目的としている。
論文 参考訳(メタデータ) (2023-11-24T15:59:14Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement [61.28459114068828]
安全な深部強化学習(DRL)に基づく訓練経路計画にリアルタイムな観察を活用するロボット脊椎手術の術中計画手法を提案する。
本手法は,ゴールドスタンダード (GS) 掘削計画に関して,90%の骨貫通を達成できた。
論文 参考訳(メタデータ) (2023-05-09T11:42:53Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - A Novel Sample-efficient Deep Reinforcement Learning with Episodic
Policy Transfer for PID-Based Control in Cardiac Catheterization Robots [2.3939470784308914]
このモデルは、血管内カテーテル用に設計されたロボットシステムの軸方向運動制御のために検証された。
従来の10試行法と比較すると,0.003mmの誤差で利得を調整できることがわかった。
論文 参考訳(メタデータ) (2021-10-28T08:18:01Z) - Learning for Dose Allocation in Adaptive Clinical Trials with Safety
Constraints [84.09488581365484]
新しい化合物の有効性と毒性の関係がより複雑になるにつれて、第1相線量測定試験はますます困難になっている。
最も一般的に使われている方法は、毒性事象のみから学習することで、最大許容量(MTD)を特定することである。
本稿では, 毒性安全性の制約を高い確率で満たしつつ, 累積効果を最大化することを目的とした, 適応型臨床試験手法を提案する。
論文 参考訳(メタデータ) (2020-06-09T03:06:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。