論文の概要: Data-Efficient Surgical Phase Segmentation in Small-Incision Cataract Surgery: A Controlled Study of Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2604.10514v1
- Date: Sun, 12 Apr 2026 08:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.068058
- Title: Data-Efficient Surgical Phase Segmentation in Small-Incision Cataract Surgery: A Controlled Study of Vision Foundation Models
- Title(参考訳): 小切開白内障手術におけるデータ効率の良い手術段階分割:視覚基礎モデルの検討
- Authors: Lincoln Spencer, Song Wang, Chen Chen,
- Abstract要約: 本研究では,手動小切開白内障手術(SICS)におけるデータ効率の良い位相分割法について,視覚的表現の制御的比較により検討した。
教師付きエンコーダ(ResNet-50, I3D)と大規模自己組織化基盤モデル(DINOv3, V-JEPA2)を比較した。
ファンデーションモデルではこの設定でセグメンテーション性能が向上し、DINOv3 ViT-7Bが最高の結果を得た。
- 参考スコア(独自算出の注目度): 10.211838396947236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical phase segmentation is central to computer-assisted surgery, yet robust models remain difficult to develop when labeled surgical videos are scarce. We study data-efficient phase segmentation for manual small-incision cataract surgery (SICS) through a controlled comparison of visual representations. To isolate representation quality, we pair each visual encoder with the same temporal model (MS-TCN++) under identical training and evaluation settings on SICS-155 (19 phases). We compare supervised encoders (ResNet-50, I3D) against large self-supervised foundation models (DINOv3, V-JEPA2), and use a cached-feature pipeline that decouples expensive visual encoding from lightweight temporal learning. Foundation-model features improve segmentation performance in this setup, with DINOv3 ViT-7B achieving the best overall results (83.4% accuracy, 87.0 edit score). We further examine cataract-domain transfer using unlabeled videos and lightweight adaptation, and analyze when it helps or hurts. Overall, the study indicates strong transferability of modern vision foundation models to surgical workflow understanding and provides practical guidance for low-label medical video settings. The project website is available at: https://sl2005.github.io/DataEfficient-sics-phase-seg/
- Abstract(参考訳): 手術段階のセグメンテーションは、コンピュータ支援手術の中心であるが、ラベル付き手術ビデオが不足している場合、堅牢なモデルの開発は困難である。
本研究では,手動小切開白内障手術(SICS)におけるデータ効率の良い位相分割法について,視覚的表現の制御的比較により検討した。
表現品質を分離するために,SICS-155(19フェーズ)上で,各視覚エンコーダと同一の時間モデル(MS-TCN++)を同一のトレーニングおよび評価設定でペアリングする。
教師付きエンコーダ (ResNet-50, I3D) と大規模自己教師型基盤モデル (DINOv3, V-JEPA2) を比較し, 軽量時間学習から高価な視覚的エンコーダを分離するキャッシュ付き機能パイプラインを用いた。
ファンデーションモデルの機能はセグメンテーション性能を改善し、DINOv3 ViT-7Bは最高の結果(精度83.4%、編集スコア87.0)を達成した。
さらに、未ラベルビデオと軽量適応を用いて白内障領域の転写について検討し、それがいつ役に立つか、または傷つくかを分析した。
本研究は,近代視覚基盤モデルの外科的ワークフロー理解への強い伝達可能性を示し,低ラベル医療ビデオ設定のための実践的ガイダンスを提供する。
プロジェクトのWebサイトは、https://sl2005.github.io/DataEfficient-sics-phase-seg/で公開されている。
関連論文リスト
- Scaling Video Pretraining for Surgical Foundation Models [51.92777479821822]
SurgRecは、スケーラブルで再現可能な、外科的ビデオ理解のための事前学習のレシピだ。
内視鏡,腹腔鏡,白内障,ロボット手術を対象とする10,535ビデオと214.5Mフレームの大規模なコーパスをキュレートした。
論文 参考訳(メタデータ) (2026-03-31T16:31:25Z) - ClipGS: Clippable Gaussian Splatting for Interactive Cinematic Visualization of Volumetric Medical Data [51.095474325541794]
医用データのインタラクティブなシネマティック可視化のためのクリッピングプレーンを備えた革新的なガウススプレイティングフレームワークであるClipGSを紹介した。
本手法を5つのボリューム医療データで検証し,平均36.635 PSNRレンダリング品質を156 FPS,16.1MBモデルサイズで達成した。
論文 参考訳(メタデータ) (2025-07-09T08:24:28Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - $\mathsf{CSMAE~}$:~Cataract Surgical Masked Autoencoder (MAE) based Pre-training [25.71088804562768]
本研究では,白内障手術ビデオ解析のためのMasked Autoencoder (MAE) を用いた事前トレーニング手法を提案する。
マスク用のトークンをランダムに選択するのではなく、トークントークンの重要性に基づいて選択される。
このアプローチは、現在の最先端の自己教師型事前学習およびアダプタベースの学習手法を、かなりのマージンで超越している。
論文 参考訳(メタデータ) (2025-02-12T22:24:49Z) - TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation [2.9776992449863613]
現在のビデオ分析は、手作業によるインデックス作成に依存している。
TEMSET-24Kは,経肛門的内視鏡的マイクロサマリー(TEMS)ビデオマイクロクリップからなるオープンソースデータセットである。
各クリップは、新しい階層的ラベリング分類を用いて、臨床専門家によって慎重に注釈付けされる。
論文 参考訳(メタデータ) (2025-02-10T17:37:34Z) - Towards Robust Algorithms for Surgical Phase Recognition via Digital Twin Representation [13.388576093178887]
ビデオからの位相認識のためのDT表現に基づくフレームワークを提案する。
フレームワークはColec80データセットに基づいてトレーニングされ、配布外および破損したテストサンプルに基づいて評価される。
本研究は,DT表現がモデルロバスト性の向上に有効であるという仮説を支持した。
論文 参考訳(メタデータ) (2024-10-26T00:49:06Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Effective semantic segmentation in Cataract Surgery: What matters most? [5.1151054398496685]
我々の研究は、白内障手術に関する挑戦的な公開ベンチマークであるCaDISに最先端のニューラルネットワーク設計の選択肢を提案する。
本手法は, 3つのセマンティックセマンティックセマンティクスタスクにおいて, よりきめ細かい外科的ツールセットを用いて, 高い性能を実現する。
論文 参考訳(メタデータ) (2021-08-13T08:27:54Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。