論文の概要: Surgical Depth Anything: Depth Estimation for Surgical Scenes using Foundation Models
- arxiv url: http://arxiv.org/abs/2410.07434v1
- Date: Wed, 9 Oct 2024 21:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 17:06:37.664996
- Title: Surgical Depth Anything: Depth Estimation for Surgical Scenes using Foundation Models
- Title(参考訳): 外科的深度評価 : 基礎モデルを用いた手術シーンの深さ推定
- Authors: Ange Lou, Yamin Li, Yike Zhang, Jack Noble,
- Abstract要約: 深度推定の最先端基盤モデルであるDepth Anythingは、ぼやけ、出血、反射といった問題に苦慮している。
本稿では,より正確な深度マップの提供を目的として,外科領域に特化してDepth Anythingモデルを微調整する。
- 参考スコア(独自算出の注目度): 4.740415113160021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular depth estimation is crucial for tracking and reconstruction algorithms, particularly in the context of surgical videos. However, the inherent challenges in directly obtaining ground truth depth maps during surgery render supervised learning approaches impractical. While many self-supervised methods based on Structure from Motion (SfM) have shown promising results, they rely heavily on high-quality camera motion and require optimization on a per-patient basis. These limitations can be mitigated by leveraging the current state-of-the-art foundational model for depth estimation, Depth Anything. However, when directly applied to surgical scenes, Depth Anything struggles with issues such as blurring, bleeding, and reflections, resulting in suboptimal performance. This paper presents a fine-tuning of the Depth Anything model specifically for the surgical domain, aiming to deliver more accurate pixel-wise depth maps tailored to the unique requirements and challenges of surgical environments. Our fine-tuning approach significantly improves the model's performance in surgical scenes, reducing errors related to blurring and reflections, and achieving a more reliable and precise depth estimation.
- Abstract(参考訳): 単眼深度推定は、特に手術ビデオの文脈において、追跡と再構成のアルゴリズムに不可欠である。
しかし,術中における地底真理深度マップの直接取得における固有の課題は,教師付き学習アプローチを非現実的なものにしている。
Structure from Motion (SfM) に基づく多くの自己監督手法が有望な結果を示しているが、高品質なカメラモーションに大きく依存しており、患者毎の最適化が必要である。
これらの制限は、Depth Anything、Depth Anythingに現在の最先端の基礎モデルを活用することで緩和することができる。
しかし、外科的シーンに直接適用すると、ディープス・エバーシングはぼやけたり、出血したり、反射したりといった問題に悩まされ、その結果、準最適パフォーマンスがもたらされる。
本稿では,外科領域に特有なDepth Anythingモデルを微調整し,手術環境のユニークな要件や課題に合わせて,より正確なピクセル単位の深度マップを提供することを目的とする。
我々の微調整アプローチは手術シーンにおけるモデルの性能を大幅に改善し、ぼやけや反射に伴う誤差を低減し、より信頼性が高く正確な深度推定を実現する。
関連論文リスト
- Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [3.1186464715409983]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
SCAREDデータセットで得られた結果は,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - DARES: Depth Anything in Robotic Endoscopic Surgery with Self-supervised Vector-LoRA of the Foundation Model [17.41557655783514]
ロボット内視鏡手術(DARES)におけるDepth Anythingの導入
DAM V2における新しい適応手法であるローランド適応(LoRA)は、自己教師付き単眼深度推定を行う。
近年の最先端の自己監督型単分子深度推定法よりも, 新たな手法が優れていることが検証された。
論文 参考訳(メタデータ) (2024-08-30T17:35:06Z) - ToDER: Towards Colonoscopy Depth Estimation and Reconstruction with Geometry Constraint Adaptation [67.22294293695255]
そこで本稿では,ToDERという双方向適応アーキテクチャを用いて,高精度な深度推定を行う新しいパイプラインを提案する。
以上の結果から,本手法は実写および合成大腸内視鏡ビデオの深度マップを精度良く予測できることが示唆された。
論文 参考訳(メタデータ) (2024-07-23T14:24:26Z) - ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera [12.152362025172915]
内視鏡的深度カメラ (EndoDAC) を用いて, 基礎モデルを内視鏡的シーンに適応させる手法を提案する。
具体的には、DV-LoRA(Dynamic Vector-Based Low-Rank Adaptation)を開発し、畳み込みネックブロックを用いる。
当社のフレームワークは,任意のカメラからの単眼手術ビデオのみをトレーニングし,最小限のトレーニングコストを確保できる。
論文 参考訳(メタデータ) (2024-05-14T14:55:15Z) - Depth-aware Volume Attention for Texture-less Stereo Matching [67.46404479356896]
実用的な屋外シナリオにおけるテクスチャ劣化に対処する軽量なボリューム改善手法を提案する。
画像テクスチャの相対的階層を抽出し,地中深度マップによって教師される深度体積を導入する。
局所的な微細構造と文脈は、体積凝集時のあいまいさと冗長性を緩和するために強調される。
論文 参考訳(メタデータ) (2024-02-14T04:07:44Z) - Endo-4DGS: Endoscopic Monocular Scene Reconstruction with 4D Gaussian Splatting [12.333523732756163]
動的シーン再構築は、下流の作業を大幅に強化し、手術結果を改善することができる。
NeRFベースの手法は、最近、シーンを再構築する異常な能力で有名になった。
本研究では,リアルタイムな内視鏡的動的再構成手法であるEndo-4DGSを提案する。
論文 参考訳(メタデータ) (2024-01-29T18:55:29Z) - Surgical-DINO: Adapter Learning of Foundation Models for Depth
Estimation in Endoscopic Surgery [12.92291406687467]
内視鏡手術における深度推定のためのDINOv2の低ランク適応であるDINO-DINOと呼ばれる基礎モデルに基づく深度推定法を設計する。
従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。
本モデルは,ダ・ヴィンチXi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセット上で広範囲に検証されている。
論文 参考訳(メタデータ) (2024-01-11T16:22:42Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Searching for Efficient Architecture for Instrument Segmentation in
Robotic Surgery [58.63306322525082]
ほとんどのアプリケーションは、高解像度の外科画像の正確なリアルタイムセグメンテーションに依存している。
我々は,高解像度画像のリアルタイム推論を行うために調整された,軽量で高効率なディープ残差アーキテクチャを設計する。
論文 参考訳(メタデータ) (2020-07-08T21:38:29Z) - Occlusion-Aware Depth Estimation with Adaptive Normal Constraints [85.44842683936471]
カラービデオから多フレーム深度を推定する新しい学習手法を提案する。
本手法は深度推定精度において最先端の手法より優れる。
論文 参考訳(メタデータ) (2020-04-02T07:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。