論文の概要: Leveraging Generic Foundation Models for Multimodal Surgical Data Analysis
- arxiv url: http://arxiv.org/abs/2509.06831v1
- Date: Mon, 08 Sep 2025 16:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.235986
- Title: Leveraging Generic Foundation Models for Multimodal Surgical Data Analysis
- Title(参考訳): マルチモーダル手術データ解析のためのジェネリック基礎モデルの活用
- Authors: Simon Pezold, Jérôme A. Kurylec, Jan S. Liechti, Beat P. Müller, Joël L. Lavanchy,
- Abstract要約: 低侵襲手術支援のためのマルチモーダルモデルの単一モダリティ基盤として,V-JEPAを用いた。
我々は、未ラベルの手術ビデオデータの微調整によって、モデルの下流のパフォーマンスがどのような恩恵を受けるかを分析する。
以上の結果から,外科的データ科学が公共の汎用基盤モデルをどのように活用できるかが示唆された。
- 参考スコア(独自算出の注目度): 0.7068165275780814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how both the adaptation of a generic foundation model via transfer learning and the integration of complementary modalities from the operating room (OR) can support surgical data science. To this end, we use V-JEPA as the single-modality foundation of a multimodal model for minimally invasive surgery support. We analyze how the model's downstream performance can benefit (a) from finetuning on unlabeled surgical video data and (b) from providing additional time-resolved data streams from the OR in a multimodal setup. In an in-house dataset of liver surgery videos, we analyze the tasks of predicting hospital length of stay and postoperative complications. In videos of the public HeiCo dataset, we analyze the task of surgical phase recognition. As a baseline, we apply pretrained V-JEPA to all tasks. We then finetune it on unlabeled, held-out videos to investigate its change in performance after domain adaptation. Following the idea of modular decision support networks, we integrate additional data streams from the OR by training a separate encoder to form a shared representation space with V-JEPA's embeddings. Our experiments show that finetuning on domain-specific data increases model performance. On the in-house data, integrating additional time-resolved data likewise benefits the model. On the HeiCo data, accuracy of the pretrained video-only, single-modality baseline setup is on par with the top-performing submissions of the EndoVis2017 challenge, while finetuning on domain-specific data increases accuracy further. Our results thus demonstrate how surgical data science can leverage public, generic foundation models. Likewise, they indicate the potential of domain adaptation and of integrating suitable complementary data streams from the OR. To support further research, we release our code and model weights at https://github.com/DigitalSurgeryLab-Basel/ML-CDS-2025.
- Abstract(参考訳): 本研究では,移植学習による総合基礎モデルの適応と手術室(OR)からの相補的モダリティの統合が,外科的データ科学にどのように貢献するかを検討する。
この目的のために我々は,低侵襲手術支援のためのマルチモーダルモデルの単一モダリティ基盤として,V-JEPAを使用している。
私たちは、モデル下流のパフォーマンスがどのように役立つかを分析します。
(a)未ラベルの外科的ビデオデータや画像の微調整から
(b)マルチモーダル設定でORから追加の時間分解データストリームを提供することから。
肝外科ビデオの社内データセットにおいて,入院期間と術後合併症の予測作業について分析した。
公開HeiCoデータセットのビデオでは,外科的位相認識の課題を分析する。
ベースラインとして、すべてのタスクに事前訓練されたV-JEPAを適用します。
そして、ドメイン適応後のパフォーマンスの変化を調べるために、ラベルなし、保留のビデオに微調整します。
モジュール型決定支援ネットワークのアイデアに従い、別個のエンコーダを訓練し、V-JEPAの埋め込みと共有表現空間を形成することにより、ORから追加のデータストリームを統合する。
実験により,ドメイン固有データに対する微調整によりモデルの性能が向上することが示された。
社内データでは、追加の時間解決データを統合することで、モデルにもメリットがある。
HeiCoのデータでは、事前訓練されたビデオのみの単一モダリティのベースライン設定の精度が、EndoVis2017チャレンジのトップパフォーマンスのサブミッションと同等であり、ドメイン固有のデータの微調整は精度をさらに高めている。
以上の結果から,外科的データ科学が公共の汎用基盤モデルをどのように活用できるかが示唆された。
同様に、ドメイン適応の可能性を示し、ORから適切な補完データストリームを統合する。
さらなる研究を支援するため、コードとモデルの重み付けをhttps://github.com/DigitalSurgeryLab-Basel/ML-CDS-2025でリリースしています。
関連論文リスト
- Data Augmentation with Diffusion Models for Colon Polyp Localization on the Low Data Regime: How much real data is enough? [38.635356845350394]
局所化アノテーションと共同で大腸内視鏡画像を生成する様々な拡散モデルを訓練する実験を行った。
生成されたデータは、低データ状態のYOLO v9に基づくモデルを用いて、ポリプローカライゼーションのタスクにおいて、様々な転送学習実験で使用される。
論文 参考訳(メタデータ) (2024-11-28T05:25:33Z) - Source-Free Collaborative Domain Adaptation via Multi-Perspective
Feature Enrichment for Functional MRI Analysis [55.03872260158717]
安静時MRI機能(rs-fMRI)は、神経疾患の分析を助けるために多地点で研究されている。
ソース領域とターゲット領域の間のfMRIの不均一性を低減するための多くの手法が提案されている。
しかし、マルチサイト研究における懸念やデータストレージの負担のため、ソースデータの取得は困難である。
我々は、fMRI解析のためのソースフリー協調ドメイン適応フレームワークを設計し、事前訓練されたソースモデルとラベルなしターゲットデータのみにアクセスできるようにする。
論文 参考訳(メタデータ) (2023-08-24T01:30:18Z) - Foundation Model for Endoscopy Video Analysis via Large-scale
Self-supervised Pre-train [27.188088885290025]
本研究では,大規模な内視鏡映像データを用いた基礎モデルであるEndo-FMを提案する。
私たちのデータセット全体は、最大500万フレームの33Kビデオクリップで構成されており、さまざまなプロトコル、対象臓器、疾患タイプが含まれています。
我々のEndo-FMは、現在最先端(SOTA)の自己指導型事前学習とアダプタベースのトランスファー学習を、かなりの差で上回っている。
論文 参考訳(メタデータ) (2023-06-29T07:34:25Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。