論文の概要: Imitation Learning for Robot Assistance in Open Surgery: A Multi-Policy Evaluation on Suture Following
- arxiv url: http://arxiv.org/abs/2605.28736v1
- Date: Wed, 27 May 2026 16:56:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.233198
- Title: Imitation Learning for Robot Assistance in Open Surgery: A Multi-Policy Evaluation on Suture Following
- Title(参考訳): 開腹手術におけるロボット支援のための模擬学習 : 縫合後の多目的評価
- Authors: Xucheng Wang, Zhizhou Yang, Xiaoman Zhang, Sung Eun Kim, Romain Hardy, Pranav Rajpurkar,
- Abstract要約: 本研究は,開腹手術における外科ロボット協調支援のための汎用的模倣学習の最初の評価である。
オープンソースロボットアームに160個の遠隔操作デモ(32,374フレーム)を収集する。
我々は、32の構成で評価された28のトレーニングモデルに対して、アーキテクチャ的に多様な4つの模倣学習ポリシーをベンチマークした。
- 参考スコア(独自算出の注目度): 8.111660057545743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents the first evaluation of general-purpose imitation learning for surgeon-robot collaborative assistance in open surgery, targeting suture following: the grab-pull-release motion an assistant performs at every stitch. We collect 160 teleoperated demonstrations (32,374 frames) on an open-source robot arm, benchmark four architecturally diverse imitation learning policies (ACT, Diffusion Policy, SmolVLA, $π_0$) across 28 trained models evaluated in 32 configurations along three clinically motivated dimensions: dataset size, camera viewpoint, and background variation. Our results demonstrate that under ideal conditions, the four policies achieve $50$-$75\%$ task success, with depth error as the dominant failure mode across all architectures. Among all policies, $π_0$ achieves the strongest results with a pretrained vision-language backbone, demonstrating superior data efficiency, greater robustness to background variation, and smoother trajectories compatible with surgical workflow. When deployed in a surgeon-robot suturing trial, $π_0$ yields a $92\%$ stitch completion rate. These findings establish collaborative robotic assistance in open surgery as a feasible target for imitation learning and highlight depth perception and end-effector design as key priorities for clinical translation.
- Abstract(参考訳): 本研究は,開腹手術における手術ロボット協調支援のための汎用的模倣学習の初回評価であり,縫合後の縫合を目標にしている。
オープンソースロボットアーム上で160の遠隔操作型デモンストレーション(32,374フレーム)を収集し、データセットサイズ、カメラ視点、背景変動という3つの臨床的動機付けられた次元に沿って、32の構成で評価された28のトレーニングモデルに対して、アーキテクチャ的に多様な模倣学習ポリシー(ACT, Diffusion Policy, SmolVLA, $π_0$)をベンチマークした。
その結果, 理想的な条件下では, 4つのポリシが50ドル~75セントのタスク成功を達成でき, 奥行きエラーがすべてのアーキテクチャにおいて支配的な障害モードであることを実証した。
すべてのポリシーの中で、$π_0$は、訓練済みの視覚言語バックボーンで最強の結果を達成し、優れたデータ効率、背景の変動に対する堅牢性、外科的ワークフローと互換性のあるよりスムーズな軌跡を示す。
外科医ロボットの縫合試験に配備すると、$π_0$は9,2\%の縫合完了率が得られる。
これらの知見は, 開腹手術における協調的ロボット支援を模倣学習の可能なターゲットとして確立し, 臨床翻訳の重要な優先事項として深度知覚とエンドエフェクタ設計を強調した。
関連論文リスト
- Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics [131.25998619318702]
医療用ロボットビデオの最大のオープンデータセットであるOpen-H-Embodimentを紹介した。
GR00T-Hは、医療ロボティクスのための最初のオープン・ファンデーション・ビジョン・ランゲージ・アクション・モデルである。
我々は,多体手術シミュレーションを可能にする最初の行動条件世界モデルであるCosmos-H-Surgical-Simulatorを訓練する。
論文 参考訳(メタデータ) (2026-04-22T19:05:17Z) - A generalizable foundation model for intraoperative understanding across surgical procedures [1.0412442875956527]
術中画像理解のための汎用基盤モデルであるZENを導入し,21以上の術式から400万フレーム以上をトレーニングした。
ZENは、既存の外科的基礎モデルより一貫して優れており、堅牢な多目的一般化を実証している。
論文 参考訳(メタデータ) (2026-02-14T06:52:42Z) - UniSurg: A Video-Native Foundation Model for Universal Understanding of Surgical Videos [81.9180187964947]
我々は,学習パラダイムを画素レベルの再構成から潜在動作予測に移行する基礎モデルUniSurgを提案する。
大規模な事前トレーニングを可能にするため,13の解剖学的領域にわたる50源からの3,658時間の動画を含む,これまでで最大規模の手術用ビデオデータセットをキュレートした。
これらの結果は、UniSurgを、ユニバーサルでモーション指向の外科的ビデオ理解の新しい標準として確立している。
論文 参考訳(メタデータ) (2026-02-05T13:18:33Z) - Localizing Scan Targets from Human Pose for Autonomous Lung Ultrasound
Imaging [61.60067283680348]
新型コロナウイルス(COVID-19)の世界的なパンデミックの出現に伴い、超音波画像を完全に自動化する必要がある。
本稿では,学習型コンピュータビジョン技術を取り入れた,視覚に基づくデータ駆動方式を提案する。
本手法は、プローブ位置決めのための15.52mm(9.47mm)、プローブ方位のための4.32(3.69deg)の精度を達成し、全走査目標に対する誤差閾値25mm以下で成功率を80%以上とした。
論文 参考訳(メタデータ) (2022-12-15T14:34:12Z) - Using Hand Pose Estimation To Automate Open Surgery Training Feedback [0.0]
本研究は,外科医の自動訓練における最先端のコンピュータビジョンアルゴリズムの利用を促進することを目的としている。
2次元手のポーズを推定することにより,手の動きをモデル化し,手術器具との相互作用をモデル化する。
論文 参考訳(メタデータ) (2022-11-13T21:47:31Z) - Quantification of Robotic Surgeries with Vision-Based Deep Learning [45.165919577877695]
本稿では,手術中に録画されたビデオのみを対象とする統合型ディープラーニングフレームワークRoboformerを提案する。
我々は,ミニマル侵襲型ロボット手術において,一般的な2種類のステップの4つのビデオベースデータセットに対して,我々の枠組みを検証した。
論文 参考訳(メタデータ) (2022-05-06T06:08:35Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Automatic Gesture Recognition in Robot-assisted Surgery with
Reinforcement Learning and Tree Search [63.07088785532908]
共同手術におけるジェスチャー分割と分類のための強化学習と木探索に基づく枠組みを提案する。
我々のフレームワークは,JIGSAWSデータセットのサチューリングタスクにおいて,精度,編集スコア,F1スコアの点で,既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2020-02-20T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。