論文の概要: BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications
- arxiv url: http://arxiv.org/abs/2408.03078v2
- Date: Mon, 4 Nov 2024 12:19:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 12:44:50.400995
- Title: BodySLAM: A Generalized Monocular Visual SLAM Framework for Surgical Applications
- Title(参考訳): BodySLAM: 外科的応用のための汎用単眼視覚SLAMフレームワーク
- Authors: G. Manni, C. Lauretti, F. Prata, R. Papalia, L. Zollo, P. Soda,
- Abstract要約: 本研究では、3つの重要なコンポーネントを通じてこれらの課題に対処する、堅牢なディープラーニングベースのMVSLAMアプローチであるBodySLAMを提案する。
CycleVOは、新しい教師なし単眼ポーズ推定モジュールであり、モノクロ深度推定のための最先端のZoeアーキテクチャの統合、コヒーレントな手術地図を作成する3D再構成モジュールである。
その結果、CycleVOは、ポーズ推定法の中で最も低い推定時間で競合性能を示し、頑健な一般化能力を維持した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Endoscopic surgery relies on two-dimensional views, posing challenges for surgeons in depth perception and instrument manipulation. While Monocular Visual Simultaneous Localization and Mapping (MVSLAM) has emerged as a promising solution, its implementation in endoscopic procedures faces significant challenges due to hardware limitations, such as the use of a monocular camera and the absence of odometry sensors. This study presents BodySLAM, a robust deep learning-based MVSLAM approach that addresses these challenges through three key components: CycleVO, a novel unsupervised monocular pose estimation module; the integration of the state-of-the-art Zoe architecture for monocular depth estimation; and a 3D reconstruction module creating a coherent surgical map. The approach is rigorously evaluated using three publicly available datasets (Hamlyn, EndoSLAM, and SCARED) spanning laparoscopy, gastroscopy, and colonoscopy scenarios, and benchmarked against four state-of-the-art methods. Results demonstrate that CycleVO exhibited competitive performance with the lowest inference time among pose estimation methods, while maintaining robust generalization capabilities, whereas Zoe significantly outperformed existing algorithms for depth estimation in endoscopy. BodySLAM's strong performance across diverse endoscopic scenarios demonstrates its potential as a viable MVSLAM solution for endoscopic applications.
- Abstract(参考訳): 内視鏡手術は、深度知覚と楽器操作において、外科医に挑戦する2次元の視点に依存している。
Monocular Visual Simultaneous Localization and Mapping (MVSLAM) が有望なソリューションとして登場したが、その内視鏡的プロシージャの実装は、モノクロカメラの使用やオドメトリセンサーの欠如など、ハードウェアの制限により、大きな課題に直面している。
本研究では,これらの課題に対処する頑健なディープラーニングに基づくMVSLAMアプローチであるBodySLAMを提案する。CycleVO,新しい教師なしモノクロポーズ推定モジュール,モノクロ深さ推定のための最先端のZeeアーキテクチャの統合,一貫性のある手術地図を作成する3D再構成モジュールである。
このアプローチは、腹腔鏡、胃内視鏡、大腸内視鏡のシナリオにまたがる3つの公開データセット(Hamlyn、EndoSLAM、SCARED)を用いて厳格に評価され、最先端の4つの方法と比較された。
その結果,CycleVOはポーズ推定法で最小推定時間で競合性能を示したが,Zoeは内視鏡の深度推定アルゴリズムよりも優れていた。
BodySLAMの様々な内視鏡的シナリオにおける強力な性能は、内視鏡的応用のための実行可能なMVSLAMソリューションとしての可能性を示している。
関連論文リスト
- Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment [69.13598421861654]
本稿では,手術におけるビデオ生成モデル評価のための専門家による最初のベンチマークであるSurgVeoを紹介する。
腹腔鏡下手術と神経外科手術の手術クリップにゼロショット予測タスクを施した高度なVeo-3モデルを課題とする。
以上の結果から,Veo-3は異常な視覚的視認性を示すが,手術的視認性ピラミッドの高位では致命的に失敗することが明らかとなった。
論文 参考訳(メタデータ) (2025-11-03T17:28:54Z) - EndoSfM3D: Learning to 3D Reconstruct Any Endoscopic Surgery Scene using Self-supervised Foundation Model [2.8913847481700667]
内視鏡下手術シーンの3次元再構築は,シーン認識の向上,AR可視化の実現,画像誘導手術におけるコンテキスト認識意思決定支援に重要な役割を担っている。
内在キャリブレーションは、不安定性の制約や、連続ズームと望遠鏡回転を備えた特殊な内視鏡の使用によって妨げられる。
本稿では, 奥行き, ポーズ, 内在性予測に, 奥行きV2(DA2)モデルを適用することで, 内在的パラメータ推定を自己教師付き単眼深度推定フレームワークに統合する。
提案手法はSCAREDおよびC3VD公開データセット上で検証され,最近の状態と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2025-10-25T16:39:04Z) - EndoGMDE: Generalizable Monocular Depth Estimation with Mixture of Low-Rank Experts for Diverse Endoscopic Scenes [3.9727779638306484]
本研究では,多彩な内視鏡における単分子深度推定のための新しい自己監督型フレームワークを提案する。
まず,異なる組織を持つ内視鏡的シーンの多様な特徴を考慮すると,ダイナミックな低ランクの専門家によるブロックワイドな混合が提案されている。
提案モジュールでは,少量のトレーニング可能なパラメータを持つ異なる専門家が重み付き推論に対して適応的に選択される。
提案手法はSCAREDデータセットとSimColデータセットの最先端処理よりも優れている。
論文 参考訳(メタデータ) (2025-09-01T07:45:12Z) - EndoUFM: Utilizing Foundation Models for Monocular depth estimation of endoscopic images [7.350425834778092]
EndoUFMは、教師なしの単眼深度推定フレームワークである。
強力な事前学習先を活用することにより、深さ推定性能を向上させる。
この研究は、最小侵襲の手術において、外科医の空間的知覚を増大させるのに寄与する。
論文 参考訳(メタデータ) (2025-08-25T11:33:05Z) - EndoFlow-SLAM: Real-Time Endoscopic SLAM with Flow-Constrained Gaussian Splatting [7.7956059927002705]
光学的フローロスを幾何学的制約として導入し、シーンの3次元構造とカメラモーションの両方を効果的に制約する。
さらに,SLAMシステムにおけるシーン表現を改善するために,キーフレームに対応する視点に着目して3DGSの洗練戦略を改善する。
提案手法は,新しいビュー合成とポーズ推定において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-06-26T16:06:46Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - EndoMetric: Near-Light Monocular Metric Scale Estimation in Endoscopy [3.4798711340521638]
標準的な単眼内視鏡画像から3次元再構成の実測値スケールを推定する手法を提案する。
これは、ポリープの測定、狭窄の測定、または疾患組織の範囲の評価など、応用に不可欠である。
論文 参考訳(メタデータ) (2024-10-19T11:06:31Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [2.906891207990726]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
提案手法は,トレーニング可能なパラメータ数を最小化しつつ,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - Deep intra-operative illumination calibration of hyperspectral cameras [73.08443963791343]
ハイパースペクトルイメージング (HSI) は, 様々な手術応用に期待できる新しい画像モダリティとして出現している。
手術室における照明条件の動的変化がHSIアプリケーションの性能に劇的な影響を及ぼすことを示す。
手術中におけるハイパースペクトル画像の自動再構成のための新しい学習ベースアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-11T08:30:03Z) - EndoSparse: Real-Time Sparse View Synthesis of Endoscopic Scenes using Gaussian Splatting [39.60431471170721]
内視鏡画像からの生体組織の3次元再構成は, 様々な重要な下流外科的応用を3D機能で解き放つ鍵となる。
既存の手法では、ビュー合成に様々な高度なニューラルレンダリング技術を採用しているが、スパースな観察しかできない場合には、正確な3D表現の復元に苦慮することが多い。
再建過程において,複数の基盤モデルから事前の知識を活用するフレームワークを提案し,それをtextitEndoSparse と呼ぶ。
論文 参考訳(メタデータ) (2024-07-01T07:24:09Z) - High-fidelity Endoscopic Image Synthesis by Utilizing Depth-guided Neural Surfaces [18.948630080040576]
内視鏡画像に適用したNeuSを1フレームの深度マップで補足した新しい大腸部分再建法を提案する。
本手法は, 大腸切片を完全にレンダリングし, 表面の見えない部分を捕捉する際の異常な精度を示す。
このブレークスルーは、安定的で一貫してスケールされた再建を達成するための道を開き、がんスクリーニングの手順と治療介入の質を高めることを約束する。
論文 参考訳(メタデータ) (2024-04-20T18:06:26Z) - Super-resolution of biomedical volumes with 2D supervision [84.5255884646906]
超解像のための仮設スライス拡散は、生物学的標本のすべての空間次元にわたるデータ生成分布の固有同値性を利用する。
我々は,高解像度2次元画像の高速取得を特徴とするSliceRの組織学的刺激(SRH)への応用に着目する。
論文 参考訳(メタデータ) (2024-04-15T02:41:55Z) - EndoGSLAM: Real-Time Dense Reconstruction and Tracking in Endoscopic Surgeries using Gaussian Splatting [53.38166294158047]
EndoGSLAMは鏡視下手術の効率的なアプローチであり、合理化表現と微分ガウス化を統合している。
実験の結果,EndoGSLAMは従来型あるいは神経型SLAMアプローチよりも術中可用性と再建品質のトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2024-03-22T11:27:43Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - A Quantitative Evaluation of Dense 3D Reconstruction of Sinus Anatomy
from Monocular Endoscopic Video [8.32570164101507]
内視鏡的シーケンスと光学的トラッキングを用いた洞再建のための自己教師型アプローチの定量的解析を行った。
以上の結果から, 生成した復元は解剖学的に高い一致を示し, 平均点間誤差は0.91mmであった。
ポーズと深さ推定の不正確さがこの誤りに等しく寄与し、より短い軌跡を持つ局所的に一貫したシーケンスがより正確な再構成をもたらすことを確認した。
論文 参考訳(メタデータ) (2023-10-22T17:11:40Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Learning How To Robustly Estimate Camera Pose in Endoscopic Videos [5.073761189475753]
カメラポーズ推定における2つの幾何学的損失を最小限に抑えるために,奥行きと光学的流れを推定するステレオ内視鏡の解を提案する。
最も重要なことは、入力画像の内容に応じてコントリビューションのバランスをとるために、2つの学習された画素単位の重みマッピングを導入することである。
パブリックなSCAREDデータセットに対する我々のアプローチを検証するとともに、新たなインビボデータセットであるStereoMISを導入しています。
論文 参考訳(メタデータ) (2023-04-17T07:05:01Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。