論文の概要: Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.15688v1
- Date: Tue, 24 Sep 2024 03:01:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 09:11:12.513376
- Title: Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning
- Title(参考訳): 人間の介入による強化学習によるロボット消化内視鏡の安全ナビゲーション
- Authors: Min Tan, Yushun Tao, Boyun Zheng, GaoSheng Xie, Lijuan Feng, Zeyang Xia, Jing Xiong,
- Abstract要約: RDE の安全性を高めるため,Human Intervention (HI) をベースとした Pximal Policy Optimization フレームワーク HI-PPO を提案する。
標準PPOの低探査効率に対応するため, 改良探査機構 (EEM) を導入する。
また,初回介入時の安全でない行為を罰する報酬報酬調整(RPA)も導入した。
- 参考スコア(独自算出の注目度): 5.520042381826271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing application of automated robotic digestive endoscopy (RDE), ensuring safe and efficient navigation in the unstructured and narrow digestive tract has become a critical challenge. Existing automated reinforcement learning navigation algorithms, often result in potentially risky collisions due to the absence of essential human intervention, which significantly limits the safety and effectiveness of RDE in actual clinical practice. To address this limitation, we proposed a Human Intervention (HI)-based Proximal Policy Optimization (PPO) framework, dubbed HI-PPO, which incorporates expert knowledge to enhance RDE's safety. Specifically, we introduce an Enhanced Exploration Mechanism (EEM) to address the low exploration efficiency of the standard PPO. Additionally, a reward-penalty adjustment (RPA) is implemented to penalize unsafe actions during initial interventions. Furthermore, Behavior Cloning Similarity (BCS) is included as an auxiliary objective to ensure the agent emulates expert actions. Comparative experiments conducted in a simulated platform across various anatomical colon segments demonstrate that our model effectively and safely guides RDE.
- Abstract(参考訳): 自動消化内視鏡(RDE)の応用が進むにつれて、非構造的かつ狭い消化管における安全かつ効率的なナビゲーションの確保が重要な課題となっている。
既存の自動強化学習ナビゲーションアルゴリズムは、人間の介入が欠如しているため、しばしば潜在的に危険な衝突を引き起こし、実際の臨床実践におけるRDEの安全性と有効性を著しく制限する。
この制限に対処するため,RDEの安全性を高めるために専門家の知識を取り入れたHuman Intervention (HI)-based Proximal Policy Optimization (PPO) フレームワーク HI-PPO を提案した。
具体的には、標準PPOの低探査効率に対応するために、拡張探査機構(EEM)を導入する。
さらに、初期介入時に安全でない行為をペナルティ化するために報酬報酬調整(RPA)が実施される。
さらに、エージェントが専門家の行動をエミュレートするために、行動クローン類似性(BCS)が補助的な目的として含まれる。
各種解剖学的大腸領域にまたがる模擬プラットフォームで行った比較実験により,我々のモデルがRDEを効果的かつ安全にガイドしていることが判明した。
関連論文リスト
- ADAPT: A Game-Theoretic and Neuro-Symbolic Framework for Automated Distributed Adaptive Penetration Testing [13.101825065498552]
AIを医療などの現代的なクリティカルインフラストラクチャシステムに統合することで、新たな脆弱性が導入された。
ADAPTは、自動分散適応浸透テストのためのゲーム理論およびニューロシンボリックフレームワークである。
論文 参考訳(メタデータ) (2024-10-31T21:32:17Z) - Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning [0.4218593777811082]
本研究は, DRLに基づくナビゲーションフレームワークにアレータリック, エピステミック, 予測不確実性推定を組み込む新しいアプローチを導入する。
本研究では,不確実な意思決定状況において,ロボットの社会的行動から保守的衝突回避への転換を提案する。
論文 参考訳(メタデータ) (2024-09-16T18:49:38Z) - RAISE -- Radiology AI Safety, an End-to-end lifecycle approach [5.829180249228172]
放射線学へのAIの統合は、臨床ケアの供給と効率を改善する機会をもたらす。
モデルが安全性、有効性、有効性の最高基準を満たすことに注力すべきである。
ここで提示されるロードマップは、放射線学におけるデプロイ可能で信頼性があり、安全なAIの達成を早めることを目的としている。
論文 参考訳(メタデータ) (2023-11-24T15:59:14Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement [61.28459114068828]
安全な深部強化学習(DRL)に基づく訓練経路計画にリアルタイムな観察を活用するロボット脊椎手術の術中計画手法を提案する。
本手法は,ゴールドスタンダード (GS) 掘削計画に関して,90%の骨貫通を達成できた。
論文 参考訳(メタデータ) (2023-05-09T11:42:53Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - A Novel Sample-efficient Deep Reinforcement Learning with Episodic
Policy Transfer for PID-Based Control in Cardiac Catheterization Robots [2.3939470784308914]
このモデルは、血管内カテーテル用に設計されたロボットシステムの軸方向運動制御のために検証された。
従来の10試行法と比較すると,0.003mmの誤差で利得を調整できることがわかった。
論文 参考訳(メタデータ) (2021-10-28T08:18:01Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z) - Learning for Dose Allocation in Adaptive Clinical Trials with Safety
Constraints [84.09488581365484]
新しい化合物の有効性と毒性の関係がより複雑になるにつれて、第1相線量測定試験はますます困難になっている。
最も一般的に使われている方法は、毒性事象のみから学習することで、最大許容量(MTD)を特定することである。
本稿では, 毒性安全性の制約を高い確率で満たしつつ, 累積効果を最大化することを目的とした, 適応型臨床試験手法を提案する。
論文 参考訳(メタデータ) (2020-06-09T03:06:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。