論文の概要: Learning Surgical Robotic Manipulation with 3D Spatial Priors
- arxiv url: http://arxiv.org/abs/2603.03798v1
- Date: Wed, 04 Mar 2026 07:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.88306
- Title: Learning Surgical Robotic Manipulation with 3D Spatial Priors
- Title(参考訳): 3次元空間的事前操作による手術ロボットマニピュレーションの学習
- Authors: Yu Sheng, Lidian Wang, Xiaomeng Chu, Jiajun Deng, Min Cheng, Yanyong Zhang, Bei Hua, Houqiang Li, Jianmin Ji,
- Abstract要約: 本稿では,3次元空間認識を持つ手術ロボットを支援する,終端から終端までのバイスモータポリシーであるSSTを紹介した。
立体内視鏡画像から頑健な3次元潜伏表現を抽出するために、手術3Dに基づいて強力な幾何学変換器を微調整する。
SSTは、複雑な外科手術における最先端性能と強力な空間一般化を実現する。
- 参考スコア(独自算出の注目度): 73.00031539525202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving 3D spatial awareness is crucial for surgical robotic manipulation, where precise and delicate operations are required. Existing methods either explicitly reconstruct the surgical scene prior to manipulation, or enhance multi-view features by adding wrist-mounted cameras to supplement the default stereo endoscopes. However, both paradigms suffer from notable limitations: the former easily leads to error accumulation and prevents end-to-end optimization due to its multi-stage nature, while the latter is rarely adopted in clinical practice since wrist-mounted cameras can interfere with the motion of surgical robot arms. In this work, we introduce the Spatial Surgical Transformer (SST), an end-to-end visuomotor policy that empowers surgical robots with 3D spatial awareness by directly exploring 3D spatial cues embedded in endoscopic images. First, we build Surgical3D, a large-scale photorealistic dataset containing 30K stereo endoscopic image pairs with accurate 3D geometry, addressing the scarcity of 3D data in surgical scenes. Based on Surgical3D, we finetune a powerful geometric transformer to extract robust 3D latent representations from stereo endoscopes images. These representations are then seamlessly aligned with the robot's action space via a lightweight multi-level spatial feature connector (MSFC), all within an endoscope-centric coordinate frame. Extensive real-robot experiments demonstrate that SST achieves state-of-the-art performance and strong spatial generalization on complex surgical tasks such as knot tying and ex-vivo organ dissection, representing a significant step toward practical clinical deployment. The dataset and code will be released.
- Abstract(参考訳): 精密かつ繊細な操作が必要な手術ロボット操作において、3D空間認識の達成は不可欠である。
既存の方法では、手術前に手術シーンを明示的に再構築するか、デフォルトのステレオ内視鏡を補うために手首に取り付けられたカメラを追加することでマルチビュー機能を強化する。
しかし、どちらのパラダイムも顕著な限界に悩まされている: 前者は容易にエラーの蓄積を招き、多段階的な性質のためエンドツーエンドの最適化を防ぐが、後者は手首搭載カメラが手術用ロボットアームの動作を妨げるため、臨床実践で採用されることは稀である。
本研究では, 内視鏡画像に埋め込まれた3次元空間的手がかりを直接探索することにより, 外科用ロボットを3次元空間的認識で支援する, エンドツーエンドのバイスモータである空間的手術変換器(SST)を導入する。
まず,手術シーンにおける3Dデータの不足に対処するため,30Kの立体内視鏡画像対と正確な3D形状を含む大規模フォトリアリスティックデータセットであるStagement3Dを構築した。
立体内視鏡画像から頑健な3次元潜伏表現を抽出するために、手術3Dに基づいて強力な幾何学変換器を微調整する。
これらの表現は、軽量なマルチレベル空間特徴コネクタ(MSFC)を介して、ロボットの行動空間とシームレスに一致し、すべて内視鏡中心の座標フレーム内に配置される。
広汎な実ロボット実験により、SSTは、結び目や前生臓器郭清などの複雑な外科的作業において、最先端のパフォーマンスと強力な空間的一般化を達成することが示され、実際的な臨床展開に向けた重要なステップである。
データセットとコードがリリースされる。
関連論文リスト
- Enhancing Free-hand 3D Photoacoustic and Ultrasound Reconstruction using Deep Learning [3.8426872518410997]
本研究では,携帯型光音響・超音波(PAUS)画像における3次元再構成を支援するため,グローバルローカル自己保持モジュール(MoGLo-Net)を用いたモーションベース学習ネットワークを提案する。
MoGLo-Netは、連続した超音波画像内の完全に発達したスペックル領域や高発癌組織領域などの臨界領域を利用して、運動パラメータを正確に推定する。
論文 参考訳(メタデータ) (2025-02-05T11:59:23Z) - Acquiring Submillimeter-Accurate Multi-Task Vision Datasets for Computer-Assisted Orthopedic Surgery [0.9268994664916388]
整形外科手術における3次元再構成と特徴マッチングに適した現実的で正確な生体外データセットを生成する。
平均3次元ユークリッド誤差0.35mmは3次元基底真理に対して達成される。
これにより、将来的な外科的データセットの取得の扉が開かれ、高精度な応用が可能となる。
論文 参考訳(メタデータ) (2025-01-26T02:52:46Z) - EasyVis2: A Real Time Multi-view 3D Visualization System for Laparoscopic Surgery Training Enhanced by a Deep Neural Network YOLOv8-Pose [3.8000041849498127]
EasyVis2は、腹腔鏡下手術のためのハンズフリーでリアルタイムな3D視覚化を提供するように設計されている。
手術用のトロカーにマイクロカメラが装備されており、体腔に挿入して3D視界を提供することができる。
特殊なディープニューラルネットワークアルゴリズムであるYOLOv8-Poseを用いて、個々のカメラビューにおける手術器具の位置と向きを推定する。
論文 参考訳(メタデータ) (2024-12-21T19:26:19Z) - MedTet: An Online Motion Model for 4D Heart Reconstruction [59.74234226055964]
本研究は, 術後の軽度データから3次元心臓運動を再構築するための新しいアプローチを提案する。
既存の方法では、フル3次元の体積像から3次元の臓器のジオメトリーを正確に再構築することができる。
このような部分的データから3次元運動を再構築するための汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-03T17:18:33Z) - Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。
脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。
5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文 参考訳(メタデータ) (2024-03-25T13:09:40Z) - Generative Enhancement for 3D Medical Images [74.17066529847546]
本稿では,3次元医用画像合成の新しい生成手法であるGEM-3Dを提案する。
本手法は2次元スライスから始まり,3次元スライスマスクを用いて患者に提供するための情報スライスとして機能し,生成過程を伝搬する。
3D医療画像をマスクと患者の事前情報に分解することで、GEM-3Dは多目的な3D画像を生成する柔軟な、かつ効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-03-19T15:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。