論文の概要: On the Role of Depth in Surgical Vision Foundation Models: An Empirical Study of RGB-D Pre-training
- arxiv url: http://arxiv.org/abs/2601.18929v1
- Date: Mon, 26 Jan 2026 20:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.050595
- Title: On the Role of Depth in Surgical Vision Foundation Models: An Empirical Study of RGB-D Pre-training
- Title(参考訳): 外科的視覚基盤モデルにおける深度の役割--RGB-Dプレトレーニングの実証的研究
- Authors: John J. Han, Adam Schmidt, Muhammad Abdullah Jamal, Chinedu Nwoye, Anita Rau, Jie Ying Wu, Omid Mohareri,
- Abstract要約: 視覚基礎モデル(VFM)は外科的シーン理解のための強力なツールとして登場した。
現在のアプローチは主に、外科的環境に固有の複雑な3D形状を見越して、単調なRGB事前訓練に依存している。
事前学習領域,学習目標,入力モダリティに異なる8つのVFMを比較検討した。
- 参考スコア(独自算出の注目度): 7.4397612353762606
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision foundation models (VFMs) have emerged as powerful tools for surgical scene understanding. However, current approaches predominantly rely on unimodal RGB pre-training, overlooking the complex 3D geometry inherent to surgical environments. Although several architectures support multimodal or geometry-aware inputs in general computer vision, the benefits of incorporating depth information in surgical settings remain underexplored. We conduct a large-scale empirical study comparing eight ViT-based VFMs that differ in pre-training domain, learning objective, and input modality (RGB vs. RGB-D). For pre-training, we use a curated dataset of 1.4 million robotic surgical images paired with depth maps generated from an off-the-shelf network. We evaluate these models under both frozen-backbone and end-to-end fine-tuning protocols across eight surgical datasets spanning object detection, segmentation, depth estimation, and pose estimation. Our experiments yield several consistent findings. Models incorporating explicit geometric tokenization, such as MultiMAE, substantially outperform unimodal baselines across all tasks. Notably, geometric-aware pre-training enables remarkable data efficiency: models fine-tuned on just 25% of labeled data consistently surpass RGB-only models trained on the full dataset. Importantly, these gains require no architectural or runtime changes at inference; depth is used only during pre-training, making adoption straightforward. These findings suggest that multimodal pre-training offers a viable path towards building more capable surgical vision systems.
- Abstract(参考訳): 視覚基礎モデル(VFM)は外科的シーン理解のための強力なツールとして登場した。
しかし、現在のアプローチは主に、外科的環境に固有の複雑な3D形状を見越して、単調なRGB事前訓練に依存している。
いくつかのアーキテクチャは、一般的なコンピュータビジョンにおいてマルチモーダルまたは幾何対応の入力をサポートするが、外科的設定に深度情報を組み込むことの利点はいまだ探索されていない。
事前学習領域,学習目標,入力モダリティ(RGB対RGB-D)が異なる8つのVFMを比較検討した。
事前トレーニングには、市販のネットワークから生成された深度マップと組み合わせた、140万のロボット手術画像のキュレートデータセットを使用します。
本研究では, 物体検出, セグメンテーション, 深さ推定, ポーズ推定を対象とする8つの手術データセットに対して, 凍結バックボーンおよびエンド・ツー・エンドの微調整プロトコルを用いてこれらのモデルを評価する。
我々の実験はいくつかの一貫した結果をもたらす。
MultiMAEのような明示的な幾何学的トークン化を取り入れたモデルでは、全てのタスクにおいて、アンモダールベースラインを大幅に上回っている。
ラベル付きデータのわずか25%で微調整されたモデルは、完全なデータセットでトレーニングされたRGBのみのモデルを一貫して上回っている。
重要な点として、これらのゲインは推論時にアーキテクチャやランタイムの変更を必要としない。
これらの結果から, マルチモーダル・プレトレーニングは, より有能な手術用視覚システム構築に有効な道筋であることが示唆された。
関連論文リスト
- DeFM: Learning Foundation Representations from Depth for Robotics [49.77188649197404]
DeFMはロボットアプリケーションのための深度画像に基づいて訓練された自己教師型基礎モデルである。
DeFMは幾何学的および意味的な表現を学び、様々な環境、タスク、センサーに一般化する。
最先端の性能を達成し、シミュレーションから実環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2026-01-26T19:45:31Z) - TAP-CT: 3D Task-Agnostic Pretraining of Computed Tomography Foundation Models [39.00742360251856]
医療領域における既存の基礎モデル(FM)は、広範囲の微調整を必要とする場合や、リソース集約型デコーダの訓練に頼っている場合が多い。
我々は,CT基盤モデル(TAP-CT)のタスクに依存しない事前学習スイートを紹介する。
提案手法では,埋め込み,位置エンコーディング,ボリューム拡張のパッチ修正を対象とし,アーキテクチャの奥行きを認識している。
論文 参考訳(メタデータ) (2025-11-30T12:43:15Z) - Learning to Efficiently Adapt Foundation Models for Self-Supervised Endoscopic 3D Scene Reconstruction from Any Cameras [41.985581990753765]
本稿では,内視鏡的シーン再構築のための統合フレームワークであるEndo3DACを紹介する。
我々は、深度マップ、相対ポーズ、カメラ固有のパラメータを同時に推定できる統合ネットワークを設計する。
4つの内視鏡的データセットに対する実験により、Endo3DACは他の最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-03-20T07:49:04Z) - SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation [20.026663367994356]
大量のフルボディCT画像は、強力なモデルを事前訓練する機会を提供する。
これらの事前訓練されたモデルが、下流の様々な医療セグメンテーションタスクに移行できる状況は、まだ不明である。
我々は,全体CT事前訓練モデルの転写能力を評価するために,モダリティ,ターゲット,サンプルサイズが異なる87の公開データセットを収集した。
論文 参考訳(メタデータ) (2024-11-21T19:00:01Z) - Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval [0.37478492878307323]
コンテンツベースの医用画像検索(CBMIR)は、画像の特徴に依存し、自動または半自動で抽出できる。
本研究では、よく知られた学習済み畳み込みニューラルネットワーク(CNN)と事前学習済み基礎モデルから、事前学習済み特徴抽出器を複数使用した。
以上の結果から,2次元データセットでは,基礎モデルの方がCNNよりも優れた性能が得られることがわかった。
画像サイズが大きくなると(特に2次元データセットの場合)性能が若干向上する一方、より小さい画像でも競争力のあるCBMIR性能が達成できることを確認した。
論文 参考訳(メタデータ) (2024-09-14T13:07:30Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - Interpretable 2D Vision Models for 3D Medical Images [47.75089895500738]
本研究では,3次元画像処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。
我々は、ベンチマークとして3D MedMNISTデータセットと、既存の手法に匹敵する数百の高分解能CTまたはMRIスキャンからなる2つの実世界のデータセットを示す。
論文 参考訳(メタデータ) (2023-07-13T08:27:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。