論文の概要: Monocular pose estimation of articulated surgical instruments in open surgery
- arxiv url: http://arxiv.org/abs/2407.12138v1
- Date: Tue, 16 Jul 2024 19:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 19:18:21.809726
- Title: Monocular pose estimation of articulated surgical instruments in open surgery
- Title(参考訳): 開腹手術における整形外科器具の単眼的ポーズ推定
- Authors: Robert Spektor, Tom Friedman, Itay Or, Gil Bolotin, Shlomi Laufer,
- Abstract要約: 本研究は,開腹手術における手術器具の単眼6Dポーズ推定への新たなアプローチとして,物体調音,対称性,注釈付き実世界のデータの欠如といった課題に対処する。
提案手法は,(1)手術器具の3次元モデリングと調音リギングを用いた合成データ生成,(2)ポーズ推定とハイブリッドな幾何学的融合戦略を組み合わせたポーズ推定フレームワーク,(3)自動生成擬似ラベルを用いた実ビデオデータへのドメイン適応を用いた,合成データと実際の注釈データの両方を利用したトレーニング戦略,の3つの構成要素から構成される。
- 参考スコア(独自算出の注目度): 0.873811641236639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a novel approach to monocular 6D pose estimation of surgical instruments in open surgery, addressing challenges such as object articulations, symmetries, occlusions, and lack of annotated real-world data. The method leverages synthetic data generation and domain adaptation techniques to overcome these obstacles. The proposed approach consists of three main components: (1) synthetic data generation using 3D modeling of surgical tools with articulation rigging and physically-based rendering; (2) a tailored pose estimation framework combining object detection with pose estimation and a hybrid geometric fusion strategy; and (3) a training strategy that utilizes both synthetic and real unannotated data, employing domain adaptation on real video data using automatically generated pseudo-labels. Evaluations conducted on videos of open surgery demonstrate the good performance and real-world applicability of the proposed method, highlighting its potential for integration into medical augmented reality and robotic systems. The approach eliminates the need for extensive manual annotation of real surgical data.
- Abstract(参考訳): 本研究は, 開腹手術における手術器具の単眼6Dポーズ推定に対する新しいアプローチとして, 物体調音, 対称性, 閉塞, 注釈付き実世界のデータの欠如といった課題に対処する。
この手法は、これらの障害を克服するために合成データ生成とドメイン適応技術を利用する。
提案手法は,(1)調音リギングと物理的レンダリングを用いた外科的ツールの3次元モデリングを用いた合成データ生成,(2)ポーズ推定とハイブリッドな幾何学的融合戦略を組み合わせた適切なポーズ推定フレームワーク,(3)合成データと実際の注釈データの両方を利用したトレーニング戦略,および(3)自動生成擬似ラベルを用いた実ビデオデータへのドメイン適応を用いたトレーニング戦略からなる。
オープン手術の映像で行った評価は,提案手法の優れた性能と実世界の応用性を示し,医療用拡張現実およびロボットシステムへの統合の可能性を強調した。
このアプローチは、実際の外科的データの広範な手動アノテーションを不要にする。
関連論文リスト
- A Review of 3D Reconstruction Techniques for Deformable Tissues in Robotic Surgery [8.909938295090827]
NeRFベースの技術は、暗黙的にシーンを再構築する能力に注目が集まっている。
一方、3D-GSは3Dガウシアンを明示的に使用し、NeRFの複雑なボリュームレンダリングの代替として2D平面に投影するシーンを表現している。
この研究は、最先端のSOTA(State-of-the-art)アプローチを探求し、レビューし、彼らのイノベーションと実装原則について議論する。
論文 参考訳(メタデータ) (2024-08-08T12:51:23Z) - Enhanced Knee Kinematics: Leveraging Deep Learning and Morphing Algorithms for 3D Implant Modeling [2.752817022620644]
本研究では, 人工膝の正確な3次元再構築のための機械学習アルゴリズムとモーフィング技術を用いた新しいアプローチを提案する。
畳み込みニューラルネットワークは、インプラントされたコンポーネントの大腿骨輪郭を自動的に分割するように訓練される。
移植膝関節のパーソナライズされた3次元モデルを生成する。
論文 参考訳(メタデータ) (2024-08-02T20:11:04Z) - Realistic Surgical Image Dataset Generation Based On 3D Gaussian Splatting [3.5351922399745166]
本研究は, 合成外科用データセットを生成するために3次元ガウススプラッティングを用いた新しい手法を提案する。
手術現場でツールやカメラのポーズとともに画像を取得することのできるデータ記録システムを開発した。
このポーズデータを用いて、シーンを合成的に再現し、合成画像の品質を直接比較できるようにする。
論文 参考訳(メタデータ) (2024-07-20T11:20:07Z) - Surgical Triplet Recognition via Diffusion Model [59.50938852117371]
外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-06-19T04:43:41Z) - Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。
脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。
5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文 参考訳(メタデータ) (2024-03-25T13:09:40Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Domain adaptation strategies for 3D reconstruction of the lumbar spine using real fluoroscopy data [9.21828361691977]
本研究は整形外科手術における手術ナビゲーション導入における重要な障害に対処するものである。
これは、少数の蛍光画像から脊椎の3次元解剖モデルを生成するためのアプローチを示す。
これまでの合成データに基づく研究の精度に匹敵する84%のF1スコアを達成しました。
論文 参考訳(メタデータ) (2024-01-29T10:22:45Z) - CholecTriplet2022: Show me a tool and tell me the triplet -- an
endoscopic vision challenge for surgical action triplet detection [41.66666272822756]
本稿では,ColecTriplet2022の課題について述べる。
キーアクターとして、すべての可視的手術器具(または道具)の弱い調整されたバウンディングボックスローカライゼーションと、楽器、動詞、ターゲット>三重奏の形式での各ツール活性のモデリングを含む。
論文 参考訳(メタデータ) (2023-02-13T11:53:14Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。