論文の概要: Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.15688v1
- Date: Tue, 24 Sep 2024 03:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-26 09:11:12.513376
- Title: Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning
- Title(参考訳): 人間の介入による強化学習によるロボット消化内視鏡の安全ナビゲーション
- Authors: Min Tan, Yushun Tao, Boyun Zheng, GaoSheng Xie, Lijuan Feng, Zeyang Xia, Jing Xiong,
- Abstract要約: RDE の安全性を高めるため,Human Intervention (HI) をベースとした Pximal Policy Optimization フレームワーク HI-PPO を提案する。
標準PPOの低探査効率に対応するため, 改良探査機構 (EEM) を導入する。
また,初回介入時の安全でない行為を罰する報酬報酬調整(RPA)も導入した。
- 参考スコア(独自算出の注目度): 5.520042381826271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing application of automated robotic digestive endoscopy (RDE), ensuring safe and efficient navigation in the unstructured and narrow digestive tract has become a critical challenge. Existing automated reinforcement learning navigation algorithms, often result in potentially risky collisions due to the absence of essential human intervention, which significantly limits the safety and effectiveness of RDE in actual clinical practice. To address this limitation, we proposed a Human Intervention (HI)-based Proximal Policy Optimization (PPO) framework, dubbed HI-PPO, which incorporates expert knowledge to enhance RDE's safety. Specifically, we introduce an Enhanced Exploration Mechanism (EEM) to address the low exploration efficiency of the standard PPO. Additionally, a reward-penalty adjustment (RPA) is implemented to penalize unsafe actions during initial interventions. Furthermore, Behavior Cloning Similarity (BCS) is included as an auxiliary objective to ensure the agent emulates expert actions. Comparative experiments conducted in a simulated platform across various anatomical colon segments demonstrate that our model effectively and safely guides RDE.
- Abstract(参考訳): 自動消化内視鏡(RDE)の応用が進むにつれて、非構造的かつ狭い消化管における安全かつ効率的なナビゲーションの確保が重要な課題となっている。
既存の自動強化学習ナビゲーションアルゴリズムは、人間の介入が欠如しているため、しばしば潜在的に危険な衝突を引き起こし、実際の臨床実践におけるRDEの安全性と有効性を著しく制限する。
この制限に対処するため,RDEの安全性を高めるために専門家の知識を取り入れたHuman Intervention (HI)-based Proximal Policy Optimization (PPO) フレームワーク HI-PPO を提案した。
具体的には、標準PPOの低探査効率に対応するために、拡張探査機構(EEM)を導入する。
さらに、初期介入時に安全でない行為をペナルティ化するために報酬報酬調整(RPA)が実施される。
さらに、エージェントが専門家の行動をエミュレートするために、行動クローン類似性(BCS)が補助的な目的として含まれる。
各種解剖学的大腸領域にまたがる模擬プラットフォームで行った比較実験により,我々のモデルがRDEを効果的かつ安全にガイドしていることが判明した。
関連論文リスト
- ETSM: Automating Dissection Trajectory Suggestion and Confidence Map-Based Safety Margin Prediction for Robot-assisted Endoscopic Submucosal Dissection [10.2380174289706]
ESD Trajectory and Confidence Map-based Safety (ETSM)データセットを1849ドルの短いクリップで作成し、デュアルアームロボットシステムによる粘膜下剥離に焦点を当てた。
また、最適解離軌道予測と信頼マップに基づく安全マージンを組み合わせたフレームワークも導入する。
提案手法は, 予測精度の向上と解離プロセスの安全性の向上により, 現在の研究におけるギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-11-28T03:19:18Z) - Hierarchical Preference Optimization: Learning to achieve goals via feasible subgoals prediction [71.81851971324187]
本研究は階層型強化学習(HRL)の新しいアプローチである階層型優先度最適化(HPO)を導入する。
HPOは、複雑なロボット制御タスクを解く際に、非定常性と非実用的なサブゴール生成の問題に対処する。
挑戦的なロボットナビゲーションと操作タスクの実験はHPOの素晴らしいパフォーマンスを示しており、ベースラインよりも最大35%改善されている。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - ADAPT: A Game-Theoretic and Neuro-Symbolic Framework for Automated Distributed Adaptive Penetration Testing [13.101825065498552]
AIを医療などの現代的なクリティカルインフラストラクチャシステムに統合することで、新たな脆弱性が導入された。
ADAPTは、自動分散適応浸透テストのためのゲーム理論およびニューロシンボリックフレームワークである。
論文 参考訳(メタデータ) (2024-10-31T21:32:17Z) - Disentangling Uncertainty for Safe Social Navigation using Deep Reinforcement Learning [0.4218593777811082]
本研究は, DRLに基づくナビゲーションフレームワークにアレータリック, エピステミック, 予測不確実性推定を組み込む新しいアプローチを導入する。
本研究では,不確実な意思決定状況において,ロボットの社会的行動から保守的衝突回避への転換を提案する。
論文 参考訳(メタデータ) (2024-09-16T18:49:38Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - RAISE -- Radiology AI Safety, an End-to-end lifecycle approach [5.829180249228172]
放射線学へのAIの統合は、臨床ケアの供給と効率を改善する機会をもたらす。
モデルが安全性、有効性、有効性の最高基準を満たすことに注力すべきである。
ここで提示されるロードマップは、放射線学におけるデプロイ可能で信頼性があり、安全なAIの達成を早めることを目的としている。
論文 参考訳(メタデータ) (2023-11-24T15:59:14Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Merging Deep Learning with Expert Knowledge for Seizure Onset Zone
localization from rs-fMRI in Pediatric Pharmaco Resistant Epilepsy [7.087237546722617]
若年期の清垂発症帯(SOZs)は薬剤耐性てんかん(PRE)の治療に有効である
頭蓋内脳波(iEEG)によるSOZの術前局在は、安全で効果的な電極配置を必要とする。
DeepXSOZは、a)専門家による作業負荷の大幅な削減や、(b)手術チームの専門知識に基づく高感度操作を設定できる、ループ内のICソート技術である。
論文 参考訳(メタデータ) (2023-06-08T22:07:48Z) - Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement [61.28459114068828]
安全な深部強化学習(DRL)に基づく訓練経路計画にリアルタイムな観察を活用するロボット脊椎手術の術中計画手法を提案する。
本手法は,ゴールドスタンダード (GS) 掘削計画に関して,90%の骨貫通を達成できた。
論文 参考訳(メタデータ) (2023-05-09T11:42:53Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - A Diver Attention Estimation Framework for Effective Underwater Human-Robot Interaction [14.267807345588581]
近年の視覚に基づく水中HRI法の進歩は、トップサイドオペレーターの助けを必要とせずに、人間のパートナーと対話する能力を持っている。
これらの方法では、AUVはダイバーが相互作用する準備ができていると仮定するが、実際にはダイバーは邪魔される可能性がある。
本稿では、ダイバーの注意度を自律的に決定するための、AUVに対するダイバーアテンション推定フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T22:08:41Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - A Novel Sample-efficient Deep Reinforcement Learning with Episodic
Policy Transfer for PID-Based Control in Cardiac Catheterization Robots [2.3939470784308914]
このモデルは、血管内カテーテル用に設計されたロボットシステムの軸方向運動制御のために検証された。
従来の10試行法と比較すると,0.003mmの誤差で利得を調整できることがわかった。
論文 参考訳(メタデータ) (2021-10-28T08:18:01Z) - Risk-Sensitive Sequential Action Control with Multi-Modal Human
Trajectory Forecasting for Safe Crowd-Robot Interaction [55.569050872780224]
本稿では,リスクに敏感な最適制御に基づく安全な群集ロボットインタラクションのためのオンラインフレームワークを提案し,そのリスクをエントロピーリスク尺度でモデル化する。
私たちのモジュラーアプローチは、クラウドとロボットの相互作用を学習ベースの予測とモデルベースの制御に分離します。
シミュレーション研究と実世界の実験により、このフレームワークは、現場にいる50人以上の人間との衝突を避けながら、安全で効率的なナビゲーションを実現することができることが示された。
論文 参考訳(メタデータ) (2020-09-12T02:02:52Z) - BoXHED: Boosted eXact Hazard Estimator with Dynamic covariates [13.330256356398243]
本稿では,非パラメトリックな危険関数推定のためのソフトウェアパッケージBoXHEDを紹介する。
BoXHEDはIshwaranのLee Chenのために公開された最初のソフトウェア実装である。
論文 参考訳(メタデータ) (2020-06-25T07:32:14Z) - Learning for Dose Allocation in Adaptive Clinical Trials with Safety
Constraints [84.09488581365484]
新しい化合物の有効性と毒性の関係がより複雑になるにつれて、第1相線量測定試験はますます困難になっている。
最も一般的に使われている方法は、毒性事象のみから学習することで、最大許容量(MTD)を特定することである。
本稿では, 毒性安全性の制約を高い確率で満たしつつ, 累積効果を最大化することを目的とした, 適応型臨床試験手法を提案する。
論文 参考訳(メタデータ) (2020-06-09T03:06:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。