論文の概要: Surgical-DINO: Adapter Learning of Foundation Models for Depth
Estimation in Endoscopic Surgery
- arxiv url: http://arxiv.org/abs/2401.06013v2
- Date: Fri, 12 Jan 2024 11:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:16:10.917838
- Title: Surgical-DINO: Adapter Learning of Foundation Models for Depth
Estimation in Endoscopic Surgery
- Title(参考訳): 内視鏡下手術における深度推定のための基礎モデルの適応学習
- Authors: Beilei Cui, Mobarakol Islam, Long Bai, Hongliang Ren
- Abstract要約: 内視鏡手術における深度推定のためのDINOv2の低ランク適応であるDINO-DINOと呼ばれる基礎モデルに基づく深度推定法を設計する。
従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。
本モデルは,ダ・ヴィンチXi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセット上で広範囲に検証されている。
- 参考スコア(独自算出の注目度): 12.92291406687467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Depth estimation in robotic surgery is vital in 3D reconstruction,
surgical navigation and augmented reality visualization. Although the
foundation model exhibits outstanding performance in many vision tasks,
including depth estimation (e.g., DINOv2), recent works observed its
limitations in medical and surgical domain-specific applications. This work
presents a low-ranked adaptation (LoRA) of the foundation model for surgical
depth estimation. Methods: We design a foundation model-based depth estimation
method, referred to as Surgical-DINO, a low-rank adaptation of the DINOv2 for
depth estimation in endoscopic surgery. We build LoRA layers and integrate them
into DINO to adapt with surgery-specific domain knowledge instead of
conventional fine-tuning. During training, we freeze the DINO image encoder,
which shows excellent visual representation capacity, and only optimize the
LoRA layers and depth decoder to integrate features from the surgical scene.
Results: Our model is extensively validated on a MICCAI challenge dataset of
SCARED, which is collected from da Vinci Xi endoscope surgery. We empirically
show that Surgical-DINO significantly outperforms all the state-of-the-art
models in endoscopic depth estimation tasks. The analysis with ablation studies
has shown evidence of the remarkable effect of our LoRA layers and adaptation.
Conclusion: Surgical-DINO shed some light on the successful adaptation of the
foundation models into the surgical domain for depth estimation. There is clear
evidence in the results that zero-shot prediction on pre-trained weights in
computer vision datasets or naive fine-tuning is not sufficient to use the
foundation model in the surgical domain directly. Code is available at
https://github.com/BeileiCui/SurgicalDINO.
- Abstract(参考訳): 目的: ロボット手術における深度推定は, 三次元再建, 手術ナビゲーション, 拡張現実の可視化において不可欠である。
基礎モデルは、深さ推定(例えば、DINOv2)を含む多くの視覚タスクにおいて優れた性能を示すが、最近の研究は、医学および外科領域固有の応用においてその限界を観察した。
本研究は手術深度推定のための基礎モデルの低ランク適応(LoRA)を示す。
方法: 内視鏡下手術における深度推定のためのDINOv2の低ランク適応として, 基礎モデルに基づく深度推定法を設計する。
従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。
トレーニング中、優れた視覚表現能力を示すDINO画像エンコーダを凍結し、手術シーンの特徴を統合するためにLoRA層と深度デコーダのみを最適化する。
結果:本モデルはDan Vinci Xi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセットで広範囲に検証された。
術中DINOは内視鏡的深度推定作業において,最先端のすべてのモデルよりも有意に優れていることを示す。
アブレーションによる解析は、我々のLoRA層と適応の顕著な影響の証拠となっている。
結論: 外科的DINOは, 深度推定のための基礎モデルの外科領域への適応を成功に導いた。
コンピュータビジョンデータセットのトレーニング済み重量のゼロショット予測やナイーブ微調整は外科領域の基盤モデルを直接使用するには不十分であるという明確な証拠がある。
コードはhttps://github.com/BeileiCui/SurgicalDINOで入手できる。
関連論文リスト
- Surgical Depth Anything: Depth Estimation for Surgical Scenes using Foundation Models [4.740415113160021]
深度推定の最先端基盤モデルであるDepth Anythingは、ぼやけ、出血、反射といった問題に苦慮している。
本稿では,より正確な深度マップの提供を目的として,外科領域に特化してDepth Anythingモデルを微調整する。
論文 参考訳(メタデータ) (2024-10-09T21:06:14Z) - Advancing Depth Anything Model for Unsupervised Monocular Depth Estimation in Endoscopy [3.1186464715409983]
本稿では,Depth Anything Modelのための新しい微調整戦略を提案する。
本手法は本態性に基づく教師なし単眼深度推定フレームワークと統合する。
SCAREDデータセットで得られた結果は,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2024-09-12T03:04:43Z) - DARES: Depth Anything in Robotic Endoscopic Surgery with Self-supervised Vector-LoRA of the Foundation Model [17.41557655783514]
ロボット内視鏡手術(DARES)におけるDepth Anythingの導入
DAM V2における新しい適応手法であるローランド適応(LoRA)は、自己教師付き単眼深度推定を行う。
近年の最先端の自己監督型単分子深度推定法よりも, 新たな手法が優れていることが検証された。
論文 参考訳(メタデータ) (2024-08-30T17:35:06Z) - EndoDAC: Efficient Adapting Foundation Model for Self-Supervised Depth Estimation from Any Endoscopic Camera [12.152362025172915]
内視鏡的深度カメラ (EndoDAC) を用いて, 基礎モデルを内視鏡的シーンに適応させる手法を提案する。
具体的には、DV-LoRA(Dynamic Vector-Based Low-Rank Adaptation)を開発し、畳み込みネックブロックを用いる。
当社のフレームワークは,任意のカメラからの単眼手術ビデオのみをトレーニングし,最小限のトレーニングコストを確保できる。
論文 参考訳(メタデータ) (2024-05-14T14:55:15Z) - Creating a Digital Twin of Spinal Surgery: A Proof of Concept [68.37190859183663]
手術デジタル化は、現実世界の手術の仮想レプリカを作成するプロセスである。
脊椎外科手術に応用した手術デジタル化のための概念実証(PoC)を提案する。
5台のRGB-Dカメラを外科医の動的3D再構成に、ハイエンドカメラを解剖学の3D再構成に、赤外線ステレオカメラを手術器具追跡に、レーザースキャナーを手術室の3D再構成とデータ融合に使用した。
論文 参考訳(メタデータ) (2024-03-25T13:09:40Z) - EndoGSLAM: Real-Time Dense Reconstruction and Tracking in Endoscopic Surgeries using Gaussian Splatting [53.38166294158047]
EndoGSLAMは鏡視下手術の効率的なアプローチであり、合理化表現と微分ガウス化を統合している。
実験の結果,EndoGSLAMは従来型あるいは神経型SLAMアプローチよりも術中可用性と再建品質のトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2024-03-22T11:27:43Z) - An Endoscopic Chisel: Intraoperative Imaging Carves 3D Anatomical Models [8.516340459721484]
本稿では,術前の3次元解剖モデル更新のための第1のビジョンベースアプローチを提案する。
以上の結果より, 外科的進行過程における誤りの減少が示唆された。
論文 参考訳(メタデータ) (2024-02-19T05:06:52Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement [61.28459114068828]
安全な深部強化学習(DRL)に基づく訓練経路計画にリアルタイムな観察を活用するロボット脊椎手術の術中計画手法を提案する。
本手法は,ゴールドスタンダード (GS) 掘削計画に関して,90%の骨貫通を達成できた。
論文 参考訳(メタデータ) (2023-05-09T11:42:53Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Live image-based neurosurgical guidance and roadmap generation using
unsupervised embedding [53.992124594124896]
本稿では,注釈付き脳外科ビデオの大規模なデータセットを活用するライブ画像のみのガイダンスを提案する。
生成されたロードマップは、トレーニングセットの手術で取られた一般的な解剖学的パスをエンコードする。
166例の腹腔鏡下腺摘出術を施行し,本法の有効性について検討した。
論文 参考訳(メタデータ) (2023-03-31T12:52:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。