論文の概要: Visuomotor Grasping with World Models for Surgical Robots
- arxiv url: http://arxiv.org/abs/2508.11200v1
- Date: Fri, 15 Aug 2025 04:23:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.739442
- Title: Visuomotor Grasping with World Models for Surgical Robots
- Title(参考訳): 手術ロボットのための世界モデルを用いた視覚運動型グラスピング
- Authors: Hongbin Lin, Bin Li, Kwok Wai Samuel Au,
- Abstract要約: 外科的把握のための視覚的学習フレームワークであるGrasp Anything for Surgery V2 (GASv2)を紹介した。
我々は,ドメインランダム化を用いてシミュレーションの方針を訓練し,ファントムと生体外の両方で実ロボットに展開する。
実験の結果,両設定ともに65%の成功率を示し,未確認の物体やグリップに一般化し,多様な乱れに適応することがわかった。
- 参考スコア(独自算出の注目度): 6.228255257808355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grasping is a fundamental task in robot-assisted surgery (RAS), and automating it can reduce surgeon workload while enhancing efficiency, safety, and consistency beyond teleoperated systems. Most prior approaches rely on explicit object pose tracking or handcrafted visual features, limiting their generalization to novel objects, robustness to visual disturbances, and the ability to handle deformable objects. Visuomotor learning offers a promising alternative, but deploying it in RAS presents unique challenges, such as low signal-to-noise ratio in visual observations, demands for high safety and millimeter-level precision, as well as the complex surgical environment. This paper addresses three key challenges: (i) sim-to-real transfer of visuomotor policies to ex vivo surgical scenes, (ii) visuomotor learning using only a single stereo camera pair -- the standard RAS setup, and (iii) object-agnostic grasping with a single policy that generalizes to diverse, unseen surgical objects without retraining or task-specific models. We introduce Grasp Anything for Surgery V2 (GASv2), a visuomotor learning framework for surgical grasping. GASv2 leverages a world-model-based architecture and a surgical perception pipeline for visual observations, combined with a hybrid control system for safe execution. We train the policy in simulation using domain randomization for sim-to-real transfer and deploy it on a real robot in both phantom-based and ex vivo surgical settings, using only a single pair of endoscopic cameras. Extensive experiments show our policy achieves a 65% success rate in both settings, generalizes to unseen objects and grippers, and adapts to diverse disturbances, demonstrating strong performance, generality, and robustness.
- Abstract(参考訳): 移植は、ロボット補助手術(RAS)の基本課題であり、自動化することで、遠隔操作システムを超えた効率、安全性、一貫性を高めながら、外科医の作業量を削減できる。
これまでのほとんどのアプローチは、明示的なオブジェクトポーズ追跡や手作りの視覚的特徴に依存し、その一般化を新しいオブジェクトに限定し、視覚障害に対する堅牢性、変形可能なオブジェクトを扱う能力に頼っていた。
Visuomotor Learningは有望な代替手段を提供するが、RASにそれを展開することで、視覚的観察における信号対雑音比の低さ、高い安全性とミリレベルの精度の要求、複雑な手術環境など、ユニークな課題が提示される。
本稿では,3つの課題に対処する。
(i)生体外手術シーンへのビジュモータ政策のシミュレート・トゥ・リアル移行
(ii)単一のステレオカメラペアのみを用いたビジュモータ学習(標準RAS設定)
第三に、訓練やタスク固有のモデルなしに、多様で見えざる外科的対象に一般化する単一のポリシーで、物体に依存しない把握を行うこと。
外科的把握のための視覚的学習フレームワークであるGrasp Anything for Surgery V2 (GASv2)を紹介した。
GASv2は、安全な実行のためのハイブリッド制御システムと組み合わせて、世界モデルベースのアーキテクチャと視覚観察のための外科的知覚パイプラインを活用する。
本研究は,1対の内視鏡カメラを用いて,シミュレート・トゥ・リアル・トランスファーのためのドメイン・ランダム化を用いてシミュレーションを行い,ファントムと生体外の両方で実際のロボットに展開する。
広範にわたる実験により,我々の政策は両設定で65%の成功率を示し,未確認の物体やグリップに一般化し,多様な乱れに適応し,強い性能,汎用性,堅牢性を示す。
関連論文リスト
- SurgVisAgent: Multimodal Agentic Model for Versatile Surgical Visual Enhancement [8.337819078911405]
SurgVisAgentはマルチモーダル大言語モデル(MLLM)上に構築されたエンドツーエンドのインテリジェントな手術用視覚エージェントである。
内視鏡画像の歪みカテゴリと重度レベルを動的に識別し、様々な拡張タスクを実行できる。
我々は,SurgVisAgentが従来の単一タスクモデルを上回ることを示す大規模な実験を行い,実世界の外科的歪みをシミュレーションするベンチマークを構築した。
論文 参考訳(メタデータ) (2025-07-03T03:00:26Z) - EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy [26.132684811981143]
VLA(Vision-Language-Action)モデルは、視覚知覚、言語接地、モーションプランニングをエンドツーエンドのフレームワークに統合する。
EndoVLAは,(1)ポリープ追跡,(2)異常粘膜領域の脱線・追尾,(3)周囲切削時の円形マーカーへの付着の3つのコアタスクを実行する。
論文 参考訳(メタデータ) (2025-05-21T07:35:00Z) - AMNCutter: Affinity-Attention-Guided Multi-View Normalized Cutter for Unsupervised Surgical Instrument Segmentation [7.594796294925481]
我々は,Multi-View Normalized Cutter(m-NCutter)という新しいモジュールを特徴とするラベルフリーな教師なしモデルを提案する。
本モデルでは, パッチ親和性を利用したグラフカット損失関数を用いて, 疑似ラベルの不要化を図った。
我々は、複数のSISデータセットにわたる包括的な実験を行い、事前訓練されたモデルとして、アプローチの最先端(SOTA)パフォーマンス、堅牢性、および例外的なポテンシャルを検証する。
論文 参考訳(メタデータ) (2024-11-06T06:33:55Z) - World Models for General Surgical Grasping [7.884835348797252]
我々は,世界モデルに基づく深層強化学習フレームワーク"Grasp Anything for Surgery"(GAS)を提案する。
外科的把握のためのピクセルレベルのビジュモータポリシーを学習し,汎用性とロバスト性の両方を向上する。
また,グリップ対象物体がグリップから落下した後に,背景変動,目標乱れ,カメラポーズ変動,運動制御誤差,画像ノイズ,再彫刻を含む6つの条件に対して,大きなロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-28T08:11:12Z) - Robotic Constrained Imitation Learning for the Peg Transfer Task in Fundamentals of Laparoscopic Surgery [18.64205729932939]
腹腔鏡下手術の基礎(FLS)におけるペグ伝達タスクを模倣学習で行うロボットの実装戦略を提案する。
本研究では,単眼画像のみを用いて,より正確な模倣学習を実現する。
2台のフランカ・エミカ・パンダ・ロボットアームを用いて全体システムを実装し,その有効性を検証した。
論文 参考訳(メタデータ) (2024-05-06T13:12:25Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。