論文の概要: EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera
- arxiv url: http://arxiv.org/abs/2405.08672v1
- Date: Tue, 14 May 2024 14:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 13:39:33.683855
- Title: EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera
- Title(参考訳): 内視鏡カメラを用いた自己監督深度推定のための効率的な適応基盤モデル
- Authors: Beilei Cui, Mobarakol Islam, Long Bai, An Wang, Hongliang Ren,
- Abstract要約: 内視鏡的深度カメラ (EndoDAC) を用いて, 基礎モデルを内視鏡的シーンに適応させる手法を提案する。
具体的には、DV-LoRA(Dynamic Vector-Based Low-Rank Adaptation)を開発し、畳み込みネックブロックを用いる。
当社のフレームワークは,任意のカメラからの単眼手術ビデオのみをトレーニングし,最小限のトレーニングコストを確保できる。
- 参考スコア(独自算出の注目度): 12.152362025172915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation plays a crucial role in various tasks within endoscopic surgery, including navigation, surface reconstruction, and augmented reality visualization. Despite the significant achievements of foundation models in vision tasks, including depth estimation, their direct application to the medical domain often results in suboptimal performance. This highlights the need for efficient adaptation methods to adapt these models to endoscopic depth estimation. We propose Endoscopic Depth Any Camera (EndoDAC) which is an efficient self-supervised depth estimation framework that adapts foundation models to endoscopic scenes. Specifically, we develop the Dynamic Vector-Based Low-Rank Adaptation (DV-LoRA) and employ Convolutional Neck blocks to tailor the foundational model to the surgical domain, utilizing remarkably few trainable parameters. Given that camera information is not always accessible, we also introduce a self-supervised adaptation strategy that estimates camera intrinsics using the pose encoder. Our framework is capable of being trained solely on monocular surgical videos from any camera, ensuring minimal training costs. Experiments demonstrate that our approach obtains superior performance even with fewer training epochs and unaware of the ground truth camera intrinsics. Code is available at https://github.com/BeileiCui/EndoDAC.
- Abstract(参考訳): 深度推定は、ナビゲーション、表面再構成、拡張現実の可視化など、内視鏡手術における様々なタスクにおいて重要な役割を果たす。
深度推定を含む視覚タスクにおける基礎モデルの顕著な成果にもかかわらず、医療領域への直接適用は、しばしば最適以下のパフォーマンスをもたらす。
このことは、これらのモデルを内視鏡的深度推定に適応させる効率的な適応法の必要性を強調している。
本研究では,内視鏡的シーンに基礎モデルを適用する,効率的な自己監督深度推定フレームワークである内視鏡深度カメラ(EndoDAC)を提案する。
具体的には,DV-LoRA (Dynamic Vector-Based Low-Rank Adaptation) を開発した。
また、カメラ情報が常にアクセス可能であるとは限らないことを踏まえ、ポーズエンコーダを用いてカメラ固有の情報を推定する自己教師型適応戦略を導入する。
当社のフレームワークは,任意のカメラからの単眼手術ビデオのみをトレーニングし,最小限のトレーニングコストを確保できる。
実験により,本手法は訓練のエポックを少なくし,地上の真理カメラの内在性を知らない場合でも,優れた性能が得られることが示された。
コードはhttps://github.com/BeileiCui/EndoDACで入手できる。
関連論文リスト
- Surgical Depth Anything: Depth Estimation for Surgical Scenes using Foundation Models [4.740415113160021]
深度推定の最先端基盤モデルであるDepth Anythingは、ぼやけ、出血、反射といった問題に苦慮している。
本稿では,より正確な深度マップの提供を目的として,外科領域に特化してDepth Anythingモデルを微調整する。
論文 参考訳(メタデータ) (2024-10-09T21:06:14Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [3.1186464715409983]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
SCAREDデータセットで得られた結果は,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - Deep intra-operative illumination calibration of hyperspectral cameras [73.08443963791343]
ハイパースペクトルイメージング (HSI) は, 様々な手術応用に期待できる新しい画像モダリティとして出現している。
手術室における照明条件の動的変化がHSIアプリケーションの性能に劇的な影響を及ぼすことを示す。
手術中におけるハイパースペクトル画像の自動再構成のための新しい学習ベースアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-11T08:30:03Z) - FLex: Joint Pose and Dynamic Radiance Fields Optimization for Stereo Endoscopic Videos [79.50191812646125]
内視鏡的シーンの再構築は、外科手術後の分析から教育訓練まで、様々な医療応用にとって重要な要素である。
変形組織の非常にダイナミックな環境下での移動内視鏡の挑戦的なセットアップに着目する。
複数重重なり合う4次元ニューラルラジアンスフィールド(NeRF)への暗黙的なシーン分離と、再構成とカメラのスクラッチからのポーズを協調的に最適化するプログレッシブ最適化手法を提案する。
これにより、使いやすさが向上し、5000フレーム以上の手術ビデオの処理に間に合うように復元能力を拡張できる。
論文 参考訳(メタデータ) (2024-03-18T19:13:02Z) - Surgical-DINO: Adapter Learning of Foundation Models for Depth
Estimation in Endoscopic Surgery [12.92291406687467]
内視鏡手術における深度推定のためのDINOv2の低ランク適応であるDINO-DINOと呼ばれる基礎モデルに基づく深度推定法を設計する。
従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。
本モデルは,ダ・ヴィンチXi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセット上で広範囲に検証されている。
論文 参考訳(メタデータ) (2024-01-11T16:22:42Z) - RIDE: Self-Supervised Learning of Rotation-Equivariant Keypoint
Detection and Invariant Description for Endoscopy [83.4885991036141]
RIDEは回転同変検出と不変記述のための学習に基づく手法である。
内視鏡画像の大規模なキュレーションを自己指導的に行う。
マッチングと相対的なポーズ推定タスクに対して、最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-09-18T08:16:30Z) - WS-SfMLearner: Self-supervised Monocular Depth and Ego-motion Estimation
on Surgical Videos with Unknown Camera Parameters [0.0]
正確で堅牢な自己監督深度とカメラエゴモーション推定システムの構築は、コンピュータビジョンコミュニティから注目を集めている。
本研究では,正確な深度マップやカメラポーズだけでなく,カメラ固有のパラメータも予測できる自己教師付き深度・エゴモーション推定システムを構築することを目的とした。
論文 参考訳(メタデータ) (2023-08-22T20:35:24Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Learning How To Robustly Estimate Camera Pose in Endoscopic Videos [5.073761189475753]
カメラポーズ推定における2つの幾何学的損失を最小限に抑えるために,奥行きと光学的流れを推定するステレオ内視鏡の解を提案する。
最も重要なことは、入力画像の内容に応じてコントリビューションのバランスをとるために、2つの学習された画素単位の重みマッピングを導入することである。
パブリックなSCAREDデータセットに対する我々のアプローチを検証するとともに、新たなインビボデータセットであるStereoMISを導入しています。
論文 参考訳(メタデータ) (2023-04-17T07:05:01Z) - Live image-based neurosurgical guidance and roadmap generation using
unsupervised embedding [53.992124594124896]
本稿では,注釈付き脳外科ビデオの大規模なデータセットを活用するライブ画像のみのガイダンスを提案する。
生成されたロードマップは、トレーニングセットの手術で取られた一般的な解剖学的パスをエンコードする。
166例の腹腔鏡下腺摘出術を施行し,本法の有効性について検討した。
論文 参考訳(メタデータ) (2023-03-31T12:52:24Z) - Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion [51.19260542887099]
カメラモデルの事前知識を必要とせずに、自己超越を用いて正確な深度とエゴモーション推定を学習できることが示される。
Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、ピクセルワイド射影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。
本研究では,多種多様なカメラシステムを用いて得られた生ビデオから,視覚計測の自己教師付き学習と深度推定にNRSを用いることを実証する。
論文 参考訳(メタデータ) (2020-08-15T02:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。