論文の概要: EndoSfM3D: Learning to 3D Reconstruct Any Endoscopic Surgery Scene using Self-supervised Foundation Model
- arxiv url: http://arxiv.org/abs/2510.22359v1
- Date: Sat, 25 Oct 2025 16:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.10953
- Title: EndoSfM3D: Learning to 3D Reconstruct Any Endoscopic Surgery Scene using Self-supervised Foundation Model
- Title(参考訳): EndoSfM3D:自己監督基礎モデルを用いた内視鏡手術シーンの3次元再構築
- Authors: Changhao Zhang, Matthew J. Clarkson, Mobarak I. Hoque,
- Abstract要約: 内視鏡下手術シーンの3次元再構築は,シーン認識の向上,AR可視化の実現,画像誘導手術におけるコンテキスト認識意思決定支援に重要な役割を担っている。
内在キャリブレーションは、不安定性の制約や、連続ズームと望遠鏡回転を備えた特殊な内視鏡の使用によって妨げられる。
本稿では, 奥行き, ポーズ, 内在性予測に, 奥行きV2(DA2)モデルを適用することで, 内在的パラメータ推定を自己教師付き単眼深度推定フレームワークに統合する。
提案手法はSCAREDおよびC3VD公開データセット上で検証され,最近の状態と比較して優れた性能を示す。
- 参考スコア(独自算出の注目度): 2.8913847481700667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D reconstruction of endoscopic surgery scenes plays a vital role in enhancing scene perception, enabling AR visualization, and supporting context-aware decision-making in image-guided surgery. A critical yet challenging step in this process is the accurate estimation of the endoscope's intrinsic parameters. In real surgical settings, intrinsic calibration is hindered by sterility constraints and the use of specialized endoscopes with continuous zoom and telescope rotation. Most existing methods for endoscopic 3D reconstruction do not estimate intrinsic parameters, limiting their effectiveness for accurate and reliable reconstruction. In this paper, we integrate intrinsic parameter estimation into a self-supervised monocular depth estimation framework by adapting the Depth Anything V2 (DA2) model for joint depth, pose, and intrinsics prediction. We introduce an attention-based pose network and a Weight-Decomposed Low-Rank Adaptation (DoRA) strategy for efficient fine-tuning of DA2. Our method is validated on the SCARED and C3VD public datasets, demonstrating superior performance compared to recent state-of-the-art approaches in self-supervised monocular depth estimation and 3D reconstruction. Code and model weights can be found in project repository: https://github.com/MOYF-beta/EndoSfM3D.
- Abstract(参考訳): 内視鏡下手術シーンの3次元再構築は,シーン認識の向上,AR可視化の実現,画像誘導手術におけるコンテキスト認識意思決定支援に重要な役割を担っている。
この過程における決定的かつ挑戦的なステップは、内視鏡の固有のパラメータを正確に推定することである。
実際の外科的設定では、内在的な校正は、不安定性の制約と、連続ズームと望遠鏡回転を備えた特殊な内視鏡の使用によって妨げられる。
既存の内視鏡的3次元再建法は内因性パラメータを推定せず,正確かつ信頼性の高い再建法の有効性を制限している。
本稿では, 奥行き, ポーズ, 内在性予測に, 奥行きV2(DA2)モデルを適用することにより, 内在的パラメータ推定を自己教師付き単眼深度推定フレームワークに統合する。
本稿では,注目型ポーズネットワークと,DA2の高精度微調整のための重み分解型低ランク適応(DoRA)戦略を導入する。
提案手法はSCAREDおよびC3VD公開データセットで検証され, 自己教師付き単眼深度推定と3次元再構成における最近の最先端手法と比較して, 優れた性能を示した。
コードとモデルの重み付けは、プロジェクトのリポジトリで見ることができる。
関連論文リスト
- EndoUFM: Utilizing Foundation Models for Monocular depth estimation of endoscopic images [7.350425834778092]
EndoUFMは、教師なしの単眼深度推定フレームワークである。
強力な事前学習先を活用することにより、深さ推定性能を向上させる。
この研究は、最小侵襲の手術において、外科医の空間的知覚を増大させるのに寄与する。
論文 参考訳(メタデータ) (2025-08-25T11:33:05Z) - Learning to Efficiently Adapt Foundation Models for Self-Supervised Endoscopic 3D Scene Reconstruction from Any Cameras [41.985581990753765]
本稿では,内視鏡的シーン再構築のための統合フレームワークであるEndo3DACを紹介する。
我々は、深度マップ、相対ポーズ、カメラ固有のパラメータを同時に推定できる統合ネットワークを設計する。
4つの内視鏡的データセットに対する実験により、Endo3DACは他の最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-20T07:49:04Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [2.906891207990726]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
提案手法は,トレーニング可能なパラメータ数を最小化しつつ,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera [12.152362025172915]
内視鏡的深度カメラ (EndoDAC) を用いて, 基礎モデルを内視鏡的シーンに適応させる手法を提案する。
具体的には、DV-LoRA(Dynamic Vector-Based Low-Rank Adaptation)を開発し、畳み込みネックブロックを用いる。
当社のフレームワークは,任意のカメラからの単眼手術ビデオのみをトレーニングし,最小限のトレーニングコストを確保できる。
論文 参考訳(メタデータ) (2024-05-14T14:55:15Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation [111.89519571205778]
そこで本研究では,深度推定のためのドメイン適応手法を提案する。
提案する2段階構造は,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練する。
実験の結果,提案手法は実画像上でのネットワーク性能をかなりの差で向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-24T08:11:34Z) - Tattoo tomography: Freehand 3D photoacoustic image reconstruction with
an optical pattern [49.240017254888336]
光音響トモグラフィ(PAT)は、形態学的および機能的組織特性の両方を解決することができる新しいイメージング技術である。
現在の欠点は、従来の2Dプローブによって提供される視野の制限である。
本研究では,外部追跡システムを必要としないPATデータの3次元再構成手法を提案する。
論文 参考訳(メタデータ) (2020-11-10T09:27:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。