論文の概要: HMD-EgoPose: Head-Mounted Display-Based Egocentric Marker-Less Tool and
Hand Pose Estimation for Augmented Surgical Guidance
- arxiv url: http://arxiv.org/abs/2202.11891v1
- Date: Thu, 24 Feb 2022 04:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:56:48.466545
- Title: HMD-EgoPose: Head-Mounted Display-Based Egocentric Marker-Less Tool and
Hand Pose Estimation for Augmented Surgical Guidance
- Title(参考訳): hmd-egopose:ヘッドマウントディスプレイを用いたエゴセントリックマーカーレスツールと手のポーズ推定による外科的指導
- Authors: Mitchell Doughty and Nilesh R. Ghugre
- Abstract要約: HMD-EgoPoseは、手動とオブジェクトのポーズ推定のための単発学習に基づくアプローチである。
マーカーレスハンドと手術器具のポーズトラッキングのためのベンチマークデータセット上で,最先端の性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success or failure of modern computer-assisted surgery procedures hinges
on the precise six-degree-of-freedom (6DoF) position and orientation (pose)
estimation of tracked instruments and tissue. In this paper, we present
HMD-EgoPose, a single-shot learning-based approach to hand and object pose
estimation and demonstrate state-of-the-art performance on a benchmark dataset
for monocular red-green-blue (RGB) 6DoF marker-less hand and surgical
instrument pose tracking. Further, we reveal the capacity of our HMD-EgoPose
framework for 6DoF near real-time pose estimation on a commercially available
optical see-through head-mounted display (OST-HMD) through a low-latency
streaming approach. Our framework utilized an efficient convolutional neural
network (CNN) backbone for multi-scale feature extraction and a set of
subnetworks to jointly learn the 6DoF pose representation of the rigid surgical
drill instrument and the grasping orientation of the hand of a user. To make
our approach accessible to a commercially available OST-HMD, the Microsoft
HoloLens 2, we created a pipeline for low-latency video and data communication
with a high-performance computing workstation capable of optimized network
inference. HMD-EgoPose outperformed current state-of-the-art approaches on a
benchmark dataset for surgical tool pose estimation, achieving an average tool
3D vertex error of 11.0 mm on real data and furthering the progress towards a
clinically viable marker-free tracking strategy. Through our low-latency
streaming approach, we achieved a round trip latency of 202.5 ms for pose
estimation and augmented visualization of the tracked model when integrated
with the OST-HMD. Our single-shot learned approach was robust to occlusion and
complex surfaces and improved on current state-of-the-art approaches to
marker-less tool and hand pose estimation.
- Abstract(参考訳): 現代のコンピュータ支援外科手術の成功または失敗は、追跡された器具や組織の正確な6自由度位置と向き(目的)の推定に依存する。
本稿では,モノクロ赤青(RGB)6DoFマーカーレスハンドと手術器具レスポーズトラッキングのためのベンチマークデータセット上で,手と物体のポーズ推定のための単発学習ベースのアプローチであるHMD-EgoPoseを提案する。
さらに,6DoF近距離ポーズ推定のためのHMD-EgoPoseフレームワークの能力について,低遅延ストリーミング手法を用いて,市販の光シースルーヘッドマウントディスプレイ(OST-HMD)を用いて明らかにした。
本フレームワークでは,多機能抽出のための効率的な畳み込みニューラルネットワーク(CNN)のバックボーンと,手術器具の6DoFポーズ表現と使用者の手の握り方向を共同学習するサブネットワークのセットを併用した。
商用のOST-HMDであるMicrosoft HoloLens 2にアプローチをアクセスできるようにするため、我々は、最適化されたネットワーク推論が可能な高性能なコンピューティングワークステーションで低レイテンシのビデオとデータ通信のためのパイプラインを作成しました。
HMD-EgoPoseは、手術用ツールのベンチマークデータセットにおける最先端のアプローチよりも優れており、実際のデータ上で平均的な3D頂点誤差を11.0 mm達成し、臨床的に可能なマーカーレス追跡戦略への進歩を加速している。
低レイテンシストリーミングアプローチにより,OST-HMDと統合された場合の追従モデルのポーズ推定と可視化のために,202.5msのラウンドトリップレイテンシを達成した。
単発学習したアプローチは咬合や複雑な表面に対して頑健であり,マーカーレスツールや手のポーズ推定に対する最先端のアプローチを改善した。
関連論文リスト
- WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - Advancing 6-DoF Instrument Pose Estimation in Variable X-Ray Imaging Geometries [7.630289691590948]
X線システムにおける6-DoFポーズ推定タスクのための汎用的なデータ取得手法を提案する。
提案したYOLOv5-6Dのポーズモデルは、GPU上で42FPSでかなり高速ながら、公開ベンチマーク上での競合的な結果を達成する。
このモデルはADD-S測定値の0.1倍の92.41%を達成し,手術精度の向上と患者の予後向上に有望なアプローチを示す。
論文 参考訳(メタデータ) (2024-05-19T21:35:12Z) - In My Perspective, In My Hands: Accurate Egocentric 2D Hand Pose and Action Recognition [1.4732811715354455]
アクション認識は、エゴセントリックなビデオ理解に不可欠であり、ユーザの努力なしに日々の生活活動(ADL)の自動的かつ継続的なモニタリングを可能にする。
既存の文献では、計算集約的な深度推定ネットワークを必要とする3Dハンドポーズ入力や、不快な深度センサーを装着することに焦点を当てている。
EffHandEgoNetとEffHandEgoNetの2つの新しい手法を導入する。
論文 参考訳(メタデータ) (2024-04-14T17:33:33Z) - Realistic Full-Body Tracking from Sparse Observations via Joint-Level
Modeling [13.284947022380404]
頭部と手の3つの追跡信号だけで、正確でスムーズな全身運動を得ることができる2段階のフレームワークを提案する。
本フレームワークは,第1段階の関節レベル特徴を明示的にモデル化し,第2段階の関節レベル相関を捉えるために,空間的および時間的トランスフォーマーブロックの交互化に時間的トークンとして利用する。
AMASSモーションデータセットと実捕集データに関する広範な実験により,提案手法は既存の手法と比較して,より正確で滑らかな動きを実現することができることを示す。
論文 参考訳(メタデータ) (2023-08-17T08:27:55Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Occlusion-Aware Self-Supervised Monocular 6D Object Pose Estimation [88.8963330073454]
自己教師付き学習による新しい単眼6次元ポーズ推定手法を提案する。
ノイズの多い学生のトレーニングと差別化可能なレンダリングの現在の傾向を活用して、モデルをさらに自己監督する。
提案する自己超越法は,合成データに依存する他の方法よりも優れている。
論文 参考訳(メタデータ) (2022-03-19T15:12:06Z) - Occlusion-robust Visual Markerless Bone Tracking for Computer-Assisted
Orthopaedic Surgery [41.681134859412246]
閉塞に対して頑健なRGB-Dセンサを用いたマーカーレストラッキング手法を提案する。
高品質な商用RGB-Dカメラを用いて,モデル膝の1-2デグレスと2-4mmの精度を実現する。
論文 参考訳(メタデータ) (2021-08-24T09:49:08Z) - SurgeonAssist-Net: Towards Context-Aware Head-Mounted Display-Based
Augmented Reality for Surgical Guidance [18.060445966264727]
SurgeonAssist-Netは、アクション・アンド・ワークフロー駆動の仮想アシストを、市販の光学シースルーヘッドマウントディスプレイ(OST-HMD)に利用できるようにするフレームワークである。
本実装は,タスクの自動認識のための予測精度において,最先端の手法と競合する。
これはMicrosoft HoloLens 2 OST-HMD上でほぼリアルタイムで動作することができる。
論文 参考訳(メタデータ) (2021-07-13T21:12:34Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Volumetric Attention for 3D Medical Image Segmentation and Detection [53.041572035020344]
3次元医用画像のセグメンテーションと検出のためのボリュームアテンション(VA)モジュールを提案する。
VAアテンションはビデオ処理の最近の進歩にインスパイアされ、2.5Dネットワークはz方向のコンテキスト情報を活用することができる。
そのMask R-CNNへの統合は、肝腫瘍(LiTS)チャレンジにおける最先端のパフォーマンスを可能にすることが示されている。
論文 参考訳(メタデータ) (2020-04-04T18:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。