論文の概要: Recognizing Surgical Phases Anywhere: Few-Shot Test-time Adaptation and Task-graph Guided Refinement
- arxiv url: http://arxiv.org/abs/2506.20254v1
- Date: Wed, 25 Jun 2025 08:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.667332
- Title: Recognizing Surgical Phases Anywhere: Few-Shot Test-time Adaptation and Task-graph Guided Refinement
- Title(参考訳): 外科的段階の認識: テスト時間適応とタスクグラフガイドリファインメント
- Authors: Kun Yuan, Tingxuan Chen, Shi Li, Joel L. Lavanchy, Christian Heiliger, Ege Özsoy, Yiming Huang, Long Bai, Nassir Navab, Vinkle Srivastav, Hongliang Ren, Nicolas Padoy,
- Abstract要約: SPAは多目的外科ワークフロー理解のための軽量なフレームワークである。
最小限のアノテーションで制度的な設定に基礎モデルを適用する。
それは、複数の機関や手順にわたって、数ショットの外科的位相認識において、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 43.44675567476855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The complexity and diversity of surgical workflows, driven by heterogeneous operating room settings, institutional protocols, and anatomical variability, present a significant challenge in developing generalizable models for cross-institutional and cross-procedural surgical understanding. While recent surgical foundation models pretrained on large-scale vision-language data offer promising transferability, their zero-shot performance remains constrained by domain shifts, limiting their utility in unseen surgical environments. To address this, we introduce Surgical Phase Anywhere (SPA), a lightweight framework for versatile surgical workflow understanding that adapts foundation models to institutional settings with minimal annotation. SPA leverages few-shot spatial adaptation to align multi-modal embeddings with institution-specific surgical scenes and phases. It also ensures temporal consistency through diffusion modeling, which encodes task-graph priors derived from institutional procedure protocols. Finally, SPA employs dynamic test-time adaptation, exploiting the mutual agreement between multi-modal phase prediction streams to adapt the model to a given test video in a self-supervised manner, enhancing the reliability under test-time distribution shifts. SPA is a lightweight adaptation framework, allowing hospitals to rapidly customize phase recognition models by defining phases in natural language text, annotating a few images with the phase labels, and providing a task graph defining phase transitions. The experimental results show that the SPA framework achieves state-of-the-art performance in few-shot surgical phase recognition across multiple institutions and procedures, even outperforming full-shot models with 32-shot labeled data. Code is available at https://github.com/CAMMA-public/SPA
- Abstract(参考訳): 不均一な手術室の設定、制度的プロトコル、解剖学的多様性によって引き起こされる外科的ワークフローの複雑さと多様性は、クロスインスティカルおよびクロスプロデューラルな外科的理解のための一般化可能なモデルを開発する上で重要な課題である。
大規模な視覚言語データに事前訓練された最近の外科的基礎モデルは、有望な転送性を提供するが、ゼロショットのパフォーマンスはドメインシフトによって制限され、目に見えない外科的環境での使用が制限される。
これを解決するために、最小限のアノテーションで基礎モデルを制度的設定に適応させる汎用的な外科的ワークフロー理解のための軽量なフレームワークであるSPAを導入する。
SPAは、数発の空間適応を利用して、マルチモーダル埋め込みを施設固有の外科シーンとフェーズに合わせる。
また、拡散モデリングにより時間的一貫性を保証し、制度的な手続きプロトコルから派生したタスクグラフの事前情報を符号化する。
最後に、SPAは動的テストタイム適応を採用し、マルチモーダル位相予測ストリーム間の相互一致を利用して、モデルを自己教師付きテストビデオに適応させ、テストタイム分布シフト時の信頼性を高める。
SPAは軽量適応フレームワークであり、自然言語テキストでフェーズを定義し、フェーズラベルでいくつかの画像を注釈付けし、フェーズ遷移を定義するタスクグラフを提供することで、病院がフェーズ認識モデルを迅速にカスタマイズすることができる。
実験の結果、SPAフレームワークは、複数の機関や手順にわたる数ショットの外科的位相認識において、最先端のパフォーマンスを達成し、32ショットのラベル付きデータを用いたフルショットモデルよりも優れていた。
コードはhttps://github.com/CAMMA-public/SPAで入手できる。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Neural Finite-State Machines for Surgical Phase Recognition [30.912252237906724]
ワークフロー最適化、パフォーマンス評価、リアルタイム介入ガイダンスの応用において、外科的位相認識は不可欠である。
従来の状態遷移前処理を現代のニューラルネットワークに統合することにより時間的コヒーレンスを実現する新しい手法であるNeural Finite-State Machine (NFSM)を提案する。
我々は、BernBypass70データセットの大幅な改善を含む、複数のベンチマークにおける最先端のパフォーマンスを実証した。
論文 参考訳(メタデータ) (2024-11-27T03:21:57Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - SurgPETL: Parameter-Efficient Image-to-Surgical-Video Transfer Learning for Surgical Phase Recognition [9.675072799670458]
高次元映像データのための「映像事前学習とビデオ微調整」は、大きなパフォーマンスボトルネックを生じさせる。
本稿では,外科的位相認識のためのパラメータ効率変換学習ベンチマークSurgPETLを提案する。
5つの大規模自然・医療データセットで事前訓練した2つの異なるスケールのViTに基づいて3つの高度な手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-30T08:33:50Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - SurgPLAN: Surgical Phase Localization Network for Phase Recognition [14.857715124466594]
そこで我々は,より正確で安定した手術相認識を支援するために,SurgPLANと呼ばれる手術相ロカライズネットワークを提案する。
まず、フレームサンプリング率の異なる2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚バックボーンとして、Praamid SlowFast (PSF) アーキテクチャを考案した。
論文 参考訳(メタデータ) (2023-11-16T15:39:01Z) - Multi-Task Prediction of Clinical Outcomes in the Intensive Care Unit
using Flexible Multimodal Transformers [4.836546574465437]
フレキシブルトランスフォーマーベースのEHR埋め込みパイプラインと予測モデルフレームワークを提案する。
集中治療室におけるフレキシブルデザインの実現可能性について検討した。
論文 参考訳(メタデータ) (2021-11-09T21:46:11Z) - Not End-to-End: Explore Multi-Stage Architecture for Online Surgical
Phase Recognition [11.234115388848284]
外科的位相認識タスクのための非エンドツーエンドトレーニング戦略を提案する。
非エンドツーエンドのトレーニング戦略では、改良段階は2種類の乱れたシーケンスを別々に訓練する。
改良モデルの3つの選択肢を評価し、分析と解が特定の多段階モデルの選択に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2021-07-10T11:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。