論文の概要: EndoUFM: Utilizing Foundation Models for Monocular depth estimation of endoscopic images
- arxiv url: http://arxiv.org/abs/2508.17916v1
- Date: Mon, 25 Aug 2025 11:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.752216
- Title: EndoUFM: Utilizing Foundation Models for Monocular depth estimation of endoscopic images
- Title(参考訳): 内視鏡画像の単眼深度推定のための基礎モデルを用いたEndoUFM
- Authors: Xinning Yao, Bo Liu, Bojian Li, Jingjing Wang, Jinghua Yue, Fugen Zhou,
- Abstract要約: EndoUFMは、教師なしの単眼深度推定フレームワークである。
強力な事前学習先を活用することにより、深さ推定性能を向上させる。
この研究は、最小侵襲の手術において、外科医の空間的知覚を増大させるのに寄与する。
- 参考スコア(独自算出の注目度): 7.350425834778092
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Depth estimation is a foundational component for 3D reconstruction in minimally invasive endoscopic surgeries. However, existing monocular depth estimation techniques often exhibit limited performance to the varying illumination and complex textures of the surgical environment. While powerful visual foundation models offer a promising solution, their training on natural images leads to significant domain adaptability limitations and semantic perception deficiencies when applied to endoscopy. In this study, we introduce EndoUFM, an unsupervised monocular depth estimation framework that innovatively integrating dual foundation models for surgical scenes, which enhance the depth estimation performance by leveraging the powerful pre-learned priors. The framework features a novel adaptive fine-tuning strategy that incorporates Random Vector Low-Rank Adaptation (RVLoRA) to enhance model adaptability, and a Residual block based on Depthwise Separable Convolution (Res-DSC) to improve the capture of fine-grained local features. Furthermore, we design a mask-guided smoothness loss to enforce depth consistency within anatomical tissue structures. Extensive experiments on the SCARED, Hamlyn, SERV-CT, and EndoNeRF datasets confirm that our method achieves state-of-the-art performance while maintaining an efficient model size. This work contributes to augmenting surgeons' spatial perception during minimally invasive procedures, thereby enhancing surgical precision and safety, with crucial implications for augmented reality and navigation systems.
- Abstract(参考訳): 低侵襲内視鏡下手術における3次元再建の基礎的要素は深さ推定である。
しかし、既存の単分子深度推定技術は、手術環境の様々な照明や複雑なテクスチャに対して限られた性能を示すことが多い。
強力なビジュアルファンデーションモデルは有望なソリューションを提供するが、自然な画像に対するトレーニングは、内視鏡に適用した場合、ドメイン適応性や意味認識の欠陥を著しく制限する。
本研究では,手術シーンの二重基礎モデルを革新的に統合した,教師なし単眼深度推定フレームワークであるEndoUFMを紹介する。
このフレームワークは、モデル適応性を高めるためにRandom Vector Low-Rank Adaptation (RVLoRA)を組み込んだ新しい適応型微調整戦略と、詳細なローカル特徴のキャプチャを改善するためにDepthwise Separable Convolution (Res-DSC)に基づくResidual Blockを備えている。
さらに,解剖学的組織構造内での深さの整合性を高めるために,マスクガイドによる滑らかさの損失を設計する。
SCARED、Hamlyn、SERV-CT、EndoNeRFデータセットの大規模な実験により、効率的なモデルサイズを維持しながら、我々の手法が最先端の性能を達成することを確認した。
この研究は、最小侵襲の手順で外科医の空間的知覚を増強し、手術の精度と安全性を向上し、拡張現実やナビゲーションシステムに重要な意味を持つ。
関連論文リスト
- Unifying Scale-Aware Depth Prediction and Perceptual Priors for Monocular Endoscope Pose Estimation and Tissue Reconstruction [3.251946340142663]
単分子内視鏡組織再建のための統一的枠組みを提示する。
スケール認識深度予測と時間的に制約された知覚の洗練を統合する。
HEVDとSCAREDの評価は、アブレーションと比較分析によって、最先端の手法よりもフレームワークの堅牢性と優位性を示している。
論文 参考訳(メタデータ) (2025-08-15T07:41:17Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [2.906891207990726]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
提案手法は,トレーニング可能なパラメータ数を最小化しつつ,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - Surgical-DINO: Adapter Learning of Foundation Models for Depth
Estimation in Endoscopic Surgery [12.92291406687467]
内視鏡手術における深度推定のためのDINOv2の低ランク適応であるDINO-DINOと呼ばれる基礎モデルに基づく深度推定法を設計する。
従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。
本モデルは,ダ・ヴィンチXi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセット上で広範囲に検証されている。
論文 参考訳(メタデータ) (2024-01-11T16:22:42Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - Deep Unrolled Recovery in Sparse Biological Imaging [62.997667081978825]
ディープ・アルゴリズム・アンローリング(Deep Algorithm Unrolling)は、反復的アルゴリズムの解釈可能性と教師付きディープラーニングの性能向上を組み合わせたディープ・アーキテクチャを開発するためのモデルベースのアプローチである。
この枠組みは生体イメージングの応用に適しており、測定プロセスを記述する物理モデルが存在し、回復すべき情報がしばしば高度に構造化されている。
論文 参考訳(メタデータ) (2021-09-28T20:22:44Z) - Adversarial Domain Feature Adaptation for Bronchoscopic Depth Estimation [111.89519571205778]
そこで本研究では,深度推定のためのドメイン適応手法を提案する。
提案する2段階構造は,まず,ラベル付き合成画像を用いた深度推定ネットワークを教師付きで訓練する。
実験の結果,提案手法は実画像上でのネットワーク性能をかなりの差で向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-24T08:11:34Z) - NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor
Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。
提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-02T17:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。