論文の概要: A Robotic 3D Perception System for Operating Room Environment Awareness
- arxiv url: http://arxiv.org/abs/2003.09487v2
- Date: Mon, 30 Mar 2020 17:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 22:52:22.815325
- Title: A Robotic 3D Perception System for Operating Room Environment Awareness
- Title(参考訳): 室内環境認識のためのロボット3次元知覚システム
- Authors: Zhaoshuo Li, Amirreza Shaban, Jean-Gabriel Simard, Dinesh Rabindran,
Simon DiMaio, Omid Mohareri
- Abstract要約: 手術室(OR)のシーン理解とコンテキスト認識を可能にするダ・ヴィンチ手術システムのための3次元多視点認識システムについて述べる。
このアーキテクチャに基づいて、マルチビュー3Dシーンセマンティックセマンティックセグメンテーションアルゴリズムを作成する。
提案アーキテクチャは、登録エラー(3.3%pm1.4%のオブジェクトカメラ距離)を許容し、シーンセグメンテーション性能を安定的に向上させることができる。
- 参考スコア(独自算出の注目度): 3.830091185868436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: We describe a 3D multi-view perception system for the da Vinci
surgical system to enable Operating room (OR) scene understanding and context
awareness.
Methods: Our proposed system is comprised of four Time-of-Flight (ToF)
cameras rigidly attached to strategic locations on the daVinci Xi patient side
cart (PSC). The cameras are registered to the robot's kinematic chain by
performing a one-time calibration routine and therefore, information from all
cameras can be fused and represented in one common coordinate frame. Based on
this architecture, a multi-view 3D scene semantic segmentation algorithm is
created to enable recognition of common and salient objects/equipment and
surgical activities in a da Vinci OR. Our proposed 3D semantic segmentation
method has been trained and validated on a novel densely annotated dataset that
has been captured from clinical scenarios.
Results: The results show that our proposed architecture has acceptable
registration error ($3.3\%\pm1.4\%$ of object-camera distance) and can robustly
improve scene segmentation performance (mean Intersection Over Union - mIOU)
for less frequently appearing classes ($\ge 0.013$) compared to a single-view
method.
Conclusion: We present the first dynamic multi-view perception system with a
novel segmentation architecture, which can be used as a building block
technology for applications such as surgical workflow analysis, automation of
surgical sub-tasks and advanced guidance systems.
- Abstract(参考訳): 目的: 手術室(OR)のシーン理解とコンテキスト認識を可能にするダ・ヴィンチ手術システムのための3次元多視点認識システムについて述べる。
方法: 提案システムは, daVinci Xi 患者側カート (PSC) の戦略的位置に厳密に取り付けられた 4 台の Time-of-Flight (ToF) カメラから構成される。
ワンタイムキャリブレーションルーチンを実行し、カメラをロボットのキネマティックチェーンに登録するので、すべてのカメラからの情報を融合して1つの共通の座標フレームで表現することができる。
このアーキテクチャに基づいて、da Vinci ORにおける共通かつ健全なオブジェクト/装備および外科的活動の認識を可能にする、多視点3Dシーンセマンティックセマンティックセマンティクスアルゴリズムを作成する。
提案手法は,臨床シナリオから得られた高密度な注釈付きデータセットを用いて,3次元セマンティックセマンティックセマンティクスを訓練し,検証した。
結果: 提案したアーキテクチャは登録エラー(3.3\%\pm1.4\%のオブジェクトカメラ距離)を許容し, 出現頻度の低いクラス(0.013ドル)に対して, シーンセグメンテーション性能(平均インターセクションオーバーユニオン - mIOU)をシングルビュー法と比較して堅牢に向上できることを示した。
結論: 我々は, 外科的ワークフロー解析, 手術サブタスクの自動化, 高度な誘導システムなどのアプリケーションのためのビルディングブロック技術として使用できる, 新しいセグメンテーションアーキテクチャを備えた最初の動的マルチビュー知覚システムを提案する。
関連論文リスト
- Kinematics-based 3D Human-Object Interaction Reconstruction from Single View [10.684643503514849]
既存の方法は、単に身体のポーズを単に屋内データセットのネットワークトレーニングに依存するだけである。
本研究では,人体の関節を人体接触領域へ正確に駆動するキネマティクスに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T05:44:35Z) - Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic
Segmentation [45.39981876226129]
本研究では、カメラのみの3Dシーン理解のための統一的な占有表現の実現を目的とした、カメラベースの3Dパノプティクスセグメンテーションについて研究する。
マルチフレーム画像とマルチビュー画像からのセマンティック情報を集約するために,voxelクエリを利用するPanoOccという新しい手法を提案する。
提案手法は,nuScenesデータセット上でのカメラベースセグメンテーションとパノプティクスセグメンテーションのための最新の結果を実現する。
論文 参考訳(メタデータ) (2023-06-16T17:59:33Z) - Scene as Occupancy [66.43673774733307]
OccNetは、カスケードと時間ボクセルデコーダを備えたビジョン中心のパイプラインで、3D占有を再構築する。
nuScenes上に構築された最初の高密度3D占有率ベンチマークであるOpenOccを提案する。
論文 参考訳(メタデータ) (2023-06-05T13:01:38Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Semantic-SuPer: A Semantic-aware Surgical Perception Framework for
Endoscopic Tissue Classification, Reconstruction, and Tracking [21.133420628173067]
外科的知覚の枠組みであるSemantic-SuPerを提案する。
データアソシエーション、3D再構成、内視鏡的シーンの追跡を容易にするため、幾何学的および意味的な情報を統合する。
論文 参考訳(メタデータ) (2022-10-29T19:33:21Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Towards Panoptic 3D Parsing for Single Image in the Wild [35.98539308998578]
本稿では,1枚のRGB画像から,総合的な画像分割,オブジェクト検出,インスタンス分割,深度推定,オブジェクトインスタンスの3次元再構成を行う統合システムを提案する。
提案するパン光学3D解析フレームワークは,コンピュータビジョンにおいて有望な方向性を示す。
自律運転、マッピング、ロボット工学、デザイン、コンピュータグラフィックス、ロボット工学、人間とコンピュータの相互作用、拡張現実など、様々な応用に適用することができる。
論文 参考訳(メタデータ) (2021-11-04T17:45:04Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。