論文の概要: A Multi-View Pipeline and Benchmark Dataset for 3D Hand Pose Estimation in Surgery
- arxiv url: http://arxiv.org/abs/2601.15918v1
- Date: Thu, 22 Jan 2026 12:48:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.603099
- Title: A Multi-View Pipeline and Benchmark Dataset for 3D Hand Pose Estimation in Surgery
- Title(参考訳): 手術における3次元ハンドポース推定のための多視点パイプラインとベンチマークデータセット
- Authors: Valery Fischer, Alan Magdaleno, Anna-Katharina Calek, Nicola Cavalcanti, Nathan Hoffman, Christoph Germann, Joschua Wüthrich, Max Krähenmann, Mazda Farshad, Philipp Fürnstahl, Lilian Calvet,
- Abstract要約: 外科的文脈における3次元手ポーズ推定のための頑健なパイプラインを提案する。
パイプラインは、信頼できる人物検出、全身ポーズ推定、最先端の2Dハンドキーポイント予測を統合する。
68,000枚以上のフレームと3000枚以上の手書き2Dハンドポーズからなる新しい手術用ベンチマークデータセットを導入する。
- 参考スコア(独自算出の注目度): 1.120882117110929
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Purpose: Accurate 3D hand pose estimation supports surgical applications such as skill assessment, robot-assisted interventions, and geometry-aware workflow analysis. However, surgical environments pose severe challenges, including intense and localized lighting, frequent occlusions by instruments or staff, and uniform hand appearance due to gloves, combined with a scarcity of annotated datasets for reliable model training. Method: We propose a robust multi-view pipeline for 3D hand pose estimation in surgical contexts that requires no domain-specific fine-tuning and relies solely on off-the-shelf pretrained models. The pipeline integrates reliable person detection, whole-body pose estimation, and state-of-the-art 2D hand keypoint prediction on tracked hand crops, followed by a constrained 3D optimization. In addition, we introduce a novel surgical benchmark dataset comprising over 68,000 frames and 3,000 manually annotated 2D hand poses with triangulated 3D ground truth, recorded in a replica operating room under varying levels of scene complexity. Results: Quantitative experiments demonstrate that our method consistently outperforms baselines, achieving a 31% reduction in 2D mean joint error and a 76% reduction in 3D mean per-joint position error. Conclusion: Our work establishes a strong baseline for 3D hand pose estimation in surgery, providing both a training-free pipeline and a comprehensive annotated dataset to facilitate future research in surgical computer vision.
- Abstract(参考訳): 目的: 正確な3次元ポーズ推定は, スキルアセスメント, ロボットによる介入, 幾何学的ワークフロー解析などの外科的応用を支援する。
しかし、外科的環境は、高度で局所的な照明、楽器やスタッフによる頻繁な閉塞、手袋による一様の手の外観、信頼性のあるモデルトレーニングのための注釈付きデータセットの不足など、深刻な課題を引き起こす。
方法: 3次元手ポーズ推定のための頑健な多視点パイプラインを提案する。
このパイプラインは、信頼できる人物検出、全身のポーズ推定、追跡された手作物の最先端の2D手指キーポイント予測、そして制約付き3D最適化を統合している。
さらに,68,000フレーム以上の手書き手と3000本の手書き手による手書き手による手書き手書き手書きの3次元実写画像からなる新しい手術用ベンチマークデータセットを導入し,シーンの複雑さの異なるレプリカ手術室で記録した。
結果: 定量的実験により, 2次元平均接合誤差が31%減少し, 3次元平均接合位置誤差が76%減少した。
結論: 本研究は3次元手ポーズ推定のための強力なベースラインを確立し, トレーニング不要パイプラインと包括的アノテートデータセットの両方を提供し, 将来の手術コンピュータビジョン研究を促進する。
関連論文リスト
- Towards Dynamic 3D Reconstruction of Hand-Instrument Interaction in Ophthalmic Surgery [38.9015512099686]
本研究は,眼科手術用RGB-D動的3D再構成データセットであるOphNet-3Dを紹介する。
40人の外科医の41のシーケンスと7100万のフレームで構成され、12の手術フェーズ、10の楽器カテゴリ、密集したMANOハンドメッシュ、フル6-DoFの楽器ポーズの詳細なアノテーションを備えている。
OphNet-3Dをベースとして,手動ポーズ推定と手動間相互作用再構成という2つの挑戦的なベンチマークを構築した。
論文 参考訳(メタデータ) (2025-05-23T09:44:02Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - Syn3DWound: A Synthetic Dataset for 3D Wound Bed Analysis [28.960666848416274]
本稿では,2Dおよび3Dアノテーションを用いた高忠実度創傷のオープンソースデータセットであるSyn3DWoundを紹介する。
自動3次元形態計測と2D/3D創傷分割のためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T13:59:53Z) - POV-Surgery: A Dataset for Egocentric Hand and Tool Pose Estimation
During Surgical Activities [4.989930168854209]
POV-Surgeryは、異なる手術用手袋と3つの整形外科器具を持つ手のポーズ推定に焦点を当てた、大規模で合成されたエゴセントリックなデータセットである。
我々のデータセットは53のシーケンスと88,329のフレームで構成され、高解像度のRGB-Dビデオストリームとアクティビティアノテーションを備えている。
我々はPOV-Surgeryにおける現在のSOTA法を微調整し、手術用手袋と工具を用いた実生活症例に適用する際の一般化性を示す。
論文 参考訳(メタデータ) (2023-07-19T18:00:32Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Towards unconstrained joint hand-object reconstruction from RGB videos [81.97694449736414]
ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。
まず,手動物体の相互作用をシームレスに処理できる学習不要な手動物体再構成手法を提案する。
論文 参考訳(メタデータ) (2021-08-16T12:26:34Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。