論文の概要: Surgical-DINO: Adapter Learning of Foundation Models for Depth
Estimation in Endoscopic Surgery
- arxiv url: http://arxiv.org/abs/2401.06013v2
- Date: Fri, 12 Jan 2024 11:46:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:16:10.917838
- Title: Surgical-DINO: Adapter Learning of Foundation Models for Depth
Estimation in Endoscopic Surgery
- Title(参考訳): 内視鏡下手術における深度推定のための基礎モデルの適応学習
- Authors: Beilei Cui, Mobarakol Islam, Long Bai, Hongliang Ren
- Abstract要約: 内視鏡手術における深度推定のためのDINOv2の低ランク適応であるDINO-DINOと呼ばれる基礎モデルに基づく深度推定法を設計する。
従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。
本モデルは,ダ・ヴィンチXi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセット上で広範囲に検証されている。
- 参考スコア(独自算出の注目度): 12.92291406687467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Depth estimation in robotic surgery is vital in 3D reconstruction,
surgical navigation and augmented reality visualization. Although the
foundation model exhibits outstanding performance in many vision tasks,
including depth estimation (e.g., DINOv2), recent works observed its
limitations in medical and surgical domain-specific applications. This work
presents a low-ranked adaptation (LoRA) of the foundation model for surgical
depth estimation. Methods: We design a foundation model-based depth estimation
method, referred to as Surgical-DINO, a low-rank adaptation of the DINOv2 for
depth estimation in endoscopic surgery. We build LoRA layers and integrate them
into DINO to adapt with surgery-specific domain knowledge instead of
conventional fine-tuning. During training, we freeze the DINO image encoder,
which shows excellent visual representation capacity, and only optimize the
LoRA layers and depth decoder to integrate features from the surgical scene.
Results: Our model is extensively validated on a MICCAI challenge dataset of
SCARED, which is collected from da Vinci Xi endoscope surgery. We empirically
show that Surgical-DINO significantly outperforms all the state-of-the-art
models in endoscopic depth estimation tasks. The analysis with ablation studies
has shown evidence of the remarkable effect of our LoRA layers and adaptation.
Conclusion: Surgical-DINO shed some light on the successful adaptation of the
foundation models into the surgical domain for depth estimation. There is clear
evidence in the results that zero-shot prediction on pre-trained weights in
computer vision datasets or naive fine-tuning is not sufficient to use the
foundation model in the surgical domain directly. Code is available at
https://github.com/BeileiCui/SurgicalDINO.
- Abstract(参考訳): 目的: ロボット手術における深度推定は, 三次元再建, 手術ナビゲーション, 拡張現実の可視化において不可欠である。
基礎モデルは、深さ推定(例えば、DINOv2)を含む多くの視覚タスクにおいて優れた性能を示すが、最近の研究は、医学および外科領域固有の応用においてその限界を観察した。
本研究は手術深度推定のための基礎モデルの低ランク適応(LoRA)を示す。
方法: 内視鏡下手術における深度推定のためのDINOv2の低ランク適応として, 基礎モデルに基づく深度推定法を設計する。
従来の微調整ではなく,手術固有のドメイン知識に適応するため,LoRA層を構築してDINOに統合する。
トレーニング中、優れた視覚表現能力を示すDINO画像エンコーダを凍結し、手術シーンの特徴を統合するためにLoRA層と深度デコーダのみを最適化する。
結果:本モデルはDan Vinci Xi内視鏡手術から収集したSCAREDのMICCAIチャレンジデータセットで広範囲に検証された。
術中DINOは内視鏡的深度推定作業において,最先端のすべてのモデルよりも有意に優れていることを示す。
アブレーションによる解析は、我々のLoRA層と適応の顕著な影響の証拠となっている。
結論: 外科的DINOは, 深度推定のための基礎モデルの外科領域への適応を成功に導いた。
コンピュータビジョンデータセットのトレーニング済み重量のゼロショット予測やナイーブ微調整は外科領域の基盤モデルを直接使用するには不十分であるという明確な証拠がある。
コードはhttps://github.com/BeileiCui/SurgicalDINOで入手できる。
関連論文リスト
- Monocular Microscope to CT Registration using Pose Estimation of the
Incus for Augmented Reality Cochlear Implant Surgery [3.8909273404657556]
本研究では, 外部追跡装置を必要とせず, 2次元から3次元の観察顕微鏡映像を直接CTスキャンに登録する手法を開発した。
その結果, x, y, z軸の平均回転誤差は25度未満, 翻訳誤差は2mm, 3mm, 0.55%であった。
論文 参考訳(メタデータ) (2024-03-12T00:26:08Z) - An Endoscopic Chisel: Intraoperative Imaging Carves 3D Anatomical Models [8.516340459721484]
本稿では,術前の3次元解剖モデル更新のための第1のビジョンベースアプローチを提案する。
以上の結果より, 外科的進行過程における誤りの減少が示唆された。
論文 参考訳(メタデータ) (2024-02-19T05:06:52Z) - Redefining the Laparoscopic Spatial Sense: AI-based Intra- and
Postoperative Measurement from Stereoimages [3.2039076408339353]
立体視を用いた腹腔鏡計測のための人体AIを用いた新しい手法を開発した。
本研究は, 総合的質的要件分析に基づいて, 包括的測定法を提案する。
提案手法が1mm以下の誤差で精度の高い距離測定を実現する可能性について概説した。
論文 参考訳(メタデータ) (2023-11-16T10:19:04Z) - SAMSNeRF: Segment Anything Model (SAM) Guides Dynamic Surgical Scene
Reconstruction by Neural Radiance Field (NeRF) [4.740415113160021]
本稿では,Segment Anything Model(SAM)とNeRF技術を組み合わせたSAMSNeRFという新しい手法を提案する。
内視鏡下外科的画像を用いた実験の結果,高忠実度ダイナミックな手術シーンの再構築に成功していることが示された。
論文 参考訳(メタデータ) (2023-08-22T20:31:00Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement [61.28459114068828]
安全な深部強化学習(DRL)に基づく訓練経路計画にリアルタイムな観察を活用するロボット脊椎手術の術中計画手法を提案する。
本手法は,ゴールドスタンダード (GS) 掘削計画に関して,90%の骨貫通を達成できた。
論文 参考訳(メタデータ) (2023-05-09T11:42:53Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Learning How To Robustly Estimate Camera Pose in Endoscopic Videos [5.073761189475753]
カメラポーズ推定における2つの幾何学的損失を最小限に抑えるために,奥行きと光学的流れを推定するステレオ内視鏡の解を提案する。
最も重要なことは、入力画像の内容に応じてコントリビューションのバランスをとるために、2つの学習された画素単位の重みマッピングを導入することである。
パブリックなSCAREDデータセットに対する我々のアプローチを検証するとともに、新たなインビボデータセットであるStereoMISを導入しています。
論文 参考訳(メタデータ) (2023-04-17T07:05:01Z) - Live image-based neurosurgical guidance and roadmap generation using
unsupervised embedding [53.992124594124896]
本稿では,注釈付き脳外科ビデオの大規模なデータセットを活用するライブ画像のみのガイダンスを提案する。
生成されたロードマップは、トレーニングセットの手術で取られた一般的な解剖学的パスをエンコードする。
166例の腹腔鏡下腺摘出術を施行し,本法の有効性について検討した。
論文 参考訳(メタデータ) (2023-03-31T12:52:24Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。