論文の概要: Towards Dynamic 3D Reconstruction of Hand-Instrument Interaction in Ophthalmic Surgery
- arxiv url: http://arxiv.org/abs/2505.17677v1
- Date: Fri, 23 May 2025 09:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.972684
- Title: Towards Dynamic 3D Reconstruction of Hand-Instrument Interaction in Ophthalmic Surgery
- Title(参考訳): 眼科手術におけるハンド・インスツルメンツの動的3次元再構築に向けて
- Authors: Ming Hu, Zhendi Yu, Feilong Tang, Kaiwen Chen, Yulong Li, Imran Razzak, Junjun He, Tolga Birdal, Kaijing Zhou, Zongyuan Ge,
- Abstract要約: 本研究は,眼科手術用RGB-D動的3D再構成データセットであるOphNet-3Dを紹介する。
40人の外科医の41のシーケンスと7100万のフレームで構成され、12の手術フェーズ、10の楽器カテゴリ、密集したMANOハンドメッシュ、フル6-DoFの楽器ポーズの詳細なアノテーションを備えている。
OphNet-3Dをベースとして,手動ポーズ推定と手動間相互作用再構成という2つの挑戦的なベンチマークを構築した。
- 参考スコア(独自算出の注目度): 38.69727584545254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Accurate 3D reconstruction of hands and instruments is critical for vision-based analysis of ophthalmic microsurgery, yet progress has been hampered by the lack of realistic, large-scale datasets and reliable annotation tools. In this work, we introduce OphNet-3D, the first extensive RGB-D dynamic 3D reconstruction dataset for ophthalmic surgery, comprising 41 sequences from 40 surgeons and totaling 7.1 million frames, with fine-grained annotations of 12 surgical phases, 10 instrument categories, dense MANO hand meshes, and full 6-DoF instrument poses. To scalably produce high-fidelity labels, we design a multi-stage automatic annotation pipeline that integrates multi-view data observation, data-driven motion prior with cross-view geometric consistency and biomechanical constraints, along with a combination of collision-aware interaction constraints for instrument interactions. Building upon OphNet-3D, we establish two challenging benchmarks-bimanual hand pose estimation and hand-instrument interaction reconstruction-and propose two dedicated architectures: H-Net for dual-hand mesh recovery and OH-Net for joint reconstruction of two-hand-two-instrument interactions. These models leverage a novel spatial reasoning module with weak-perspective camera modeling and collision-aware center-based representation. Both architectures outperform existing methods by substantial margins, achieving improvements of over 2mm in Mean Per Joint Position Error (MPJPE) and up to 23% in ADD-S metrics for hand and instrument reconstruction, respectively.
- Abstract(参考訳): 手と楽器の正確な3D再構成は眼微小手術の視覚的分析に不可欠であるが、現実的で大規模なデータセットや信頼できるアノテーションツールが欠如しているため、進歩は妨げられている。
本研究は,40人の外科医から41のシーケンスと7100万フレームからなる眼科手術用RGB-D動的3D再構成データセットOphNet-3Dについて紹介する。
高忠実度ラベルを高い精度で作成するために,多視点データ観測,データ駆動動作,クロスビュー幾何整合性,生体力学的制約,および機器間相互作用に対する衝突認識相互作用制約を組み合わせた多段階自動アノテーションパイプラインを設計した。
OphNet-3Dをベースとして,手動ポーズ推定と手動・手動インタラクション再構築という2つの挑戦的なベンチマークを構築し,両手動メッシュリカバリのためのH-Netと両手動インタラクションの協調再構築のためのOH-Netの2つのアーキテクチャを提案する。
これらのモデルは、弱いパースペクティブカメラモデリングと衝突認識中心に基づく表現を備えた新しい空間推論モジュールを利用する。
どちらのアーキテクチャも既存の手法よりも大幅に優れており,MPJPE(Mean Per Joint Position Error)では2mm以上の改善を実現している。
関連論文リスト
- MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。
手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文 参考訳(メタデータ) (2025-05-22T12:37:47Z) - WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild [53.288327629960364]
野生における効率的なマルチハンド再構築のためのデータ駆動パイプラインを提案する。
提案するパイプラインは、リアルタイム完全畳み込みハンドローカライゼーションと、高忠実度トランスフォーマーに基づく3Dハンド再構成モデルという2つのコンポーネントで構成されている。
提案手法は, 一般的な2次元および3次元のベンチマークにおいて, 効率と精度の両方において, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T18:46:51Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Syn3DWound: A Synthetic Dataset for 3D Wound Bed Analysis [28.960666848416274]
本稿では,2Dおよび3Dアノテーションを用いた高忠実度創傷のオープンソースデータセットであるSyn3DWoundを紹介する。
自動3次元形態計測と2D/3D創傷分割のためのベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T13:59:53Z) - MOHO: Learning Single-view Hand-held Object Reconstruction with
Multi-view Occlusion-Aware Supervision [75.38953287579616]
ハンドヘルドオブジェクト再構成のためのハンドオブジェクトビデオから,多視点オクルージョン対応監視を利用する新しいフレームワークを提案する。
このような設定において、手による排他と対象の自己排他という2つの主要な課題に対処する。
HO3D と DexYCB のデータセットを用いた実験では、2D のMOHO が 3D の教師付き手法に対して大きなマージンで優れた結果を得ることが示された。
論文 参考訳(メタデータ) (2023-10-18T03:57:06Z) - Two-and-a-half Order Score-based Model for Solving 3D Ill-posed Inverse
Problems [7.074380879971194]
本稿では,3次元ボリューム再構成のための2次半順序スコアベースモデル(TOSM)を提案する。
トレーニング期間中、TOSMは2次元空間のデータ分布を学習し、トレーニングの複雑さを低減する。
再構成フェーズでは、TOSMは3方向の相補的なスコアを利用して、3次元空間のデータ分布を更新する。
論文 参考訳(メタデータ) (2023-08-16T17:07:40Z) - Joint Hand-object 3D Reconstruction from a Single Image with
Cross-branch Feature Fusion [78.98074380040838]
特徴空間において手とオブジェクトを共同で検討し、2つの枝の相互性について検討する。
入力されたRGB画像に推定深度マップを付加するために補助深度推定モジュールを用いる。
提案手法は,オブジェクトの復元精度において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-28T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。