論文の概要: SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking
- arxiv url: http://arxiv.org/abs/2511.16618v1
- Date: Thu, 20 Nov 2025 18:18:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.782242
- Title: SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking
- Title(参考訳): SAM2S:セマンティックな長期追跡による手術ビデオのセグメンテーション
- Authors: Haofeng Liu, Ziyue Wang, Sudhanshu Mishra, Mingqi Gao, Guanyi Qin, Chang Han Low, Alex Y. W. Kong, Yueming Jin,
- Abstract要約: 外科的セグメンテーションはコンピュータ支援手術に不可欠であり、楽器や組織の正確な位置決めと追跡を可能にする。
Segment Anything Model 2 (SAM2) のようなインタラクティブビデオオブジェクト (iVOS) モデルは、事前に定義されたカテゴリを持つメソッドを超えた、迅速なフレキシビリティを提供するが、ドメインギャップと長期追跡の制限による手術シナリオの課題に直面している。
症例レベルの時間的アノテーション(マスクレット)が8種類のプロシージャ(61kフレーム,1.6kマスクレット)にまたがる最大の手術用iVOSベンチマークであるSA-SVを構築した。
我々はbftextSAM2を拡張した基盤モデルSAM2Sを提案する。
- 参考スコア(独自算出の注目度): 15.279735515011817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical video segmentation is crucial for computer-assisted surgery, enabling precise localization and tracking of instruments and tissues. Interactive Video Object Segmentation (iVOS) models such as Segment Anything Model 2 (SAM2) provide prompt-based flexibility beyond methods with predefined categories, but face challenges in surgical scenarios due to the domain gap and limited long-term tracking. To address these limitations, we construct SA-SV, the largest surgical iVOS benchmark with instance-level spatio-temporal annotations (masklets) spanning eight procedure types (61k frames, 1.6k masklets), enabling comprehensive development and evaluation for long-term tracking and zero-shot generalization. Building on SA-SV, we propose SAM2S, a foundation model enhancing \textbf{SAM2} for \textbf{S}urgical iVOS through: (1) DiveMem, a trainable diverse memory mechanism for robust long-term tracking; (2) temporal semantic learning for instrument understanding; and (3) ambiguity-resilient learning to mitigate annotation inconsistencies across multi-source datasets. Extensive experiments demonstrate that fine-tuning on SA-SV enables substantial performance gains, with SAM2 improving by 12.99 average $\mathcal{J}$\&$\mathcal{F}$ over vanilla SAM2. SAM2S further advances performance to 80.42 average $\mathcal{J}$\&$\mathcal{F}$, surpassing vanilla and fine-tuned SAM2 by 17.10 and 4.11 points respectively, while maintaining 68 FPS real-time inference and strong zero-shot generalization. Code and dataset will be released at https://jinlab-imvr.github.io/SAM2S.
- Abstract(参考訳): 外科的ビデオセグメンテーションは、コンピュータ支援手術において不可欠であり、機器や組織の正確な位置決めと追跡を可能にする。
Segment Anything Model 2 (SAM2) のようなインタラクティブビデオオブジェクトセグメンテーション (iVOS) モデルは、事前に定義されたカテゴリを持つメソッド以外の、プロンプトベースの柔軟性を提供するが、ドメインギャップと長期追跡の制限による手術シナリオの課題に直面している。
これらの制約に対処するため、SA-SVは8種類のプロシージャタイプ(61kフレーム、1.6kマスクレット)にまたがるインスタンスレベルの時空間アノテーション(マスクレット)を備えた最大の外科的iVOSベンチマークであり、長期追跡とゼロショット一般化のための包括的な開発と評価を可能にする。
SA-SV上に構築したSAM2Sは,(1)堅牢な長期追跡のためのトレーニング可能な多様なメモリ機構であるDiveMem,(2)機器理解のための時間的意味学習,(3)マルチソースデータセット間のアノテーションの不整合を緩和するためのあいまいさに耐性のある学習である。
SA-SV の微調整は、SAM2 を 12.99 平均 $\mathcal{J}$\&$\mathcal{F}$ over vanilla SAM2 で改善することにより、大幅な性能向上を可能にすることを示した。
さらに SAM2S は 80.42 平均 $\mathcal{J}$\&$\mathcal{F}$ に向上し、それぞれバニラと微調整された SAM2 を 17.10 と 4.11 に上回り、68 FPS のリアルタイム推論と強いゼロショットの一般化を維持した。
コードとデータセットはhttps://jinlab-imvr.github.io/SAM2Sでリリースされる。
関連論文リスト
- UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity [54.41309926099154]
人間のアノテーションなしでどんな粒度でもセグメンテーションできるUnSAMv2を紹介します。
UnSAMv2は、マスクと粒度のペアを豊富に発見することで、UnSAMの分割・対戦略を拡張している。
粒度を意識した自己教師付き学習手法により,少量のラベル付きデータが視覚基礎モデルの可能性を解き放つことを示す。
論文 参考訳(メタデータ) (2025-11-17T18:58:34Z) - VesSAM: Efficient Multi-Prompting for Segmenting Complex Vessel [68.24765319399286]
本稿では,2次元血管セグメンテーションに適した,強力で効率的なフレームワークであるVesSAMを提案する。
VesSAMは、(1)局所的なテクスチャ機能を強化する畳み込みアダプタ、(2)解剖学的プロンプトを融合するマルチプロンプトエンコーダ、(3)ジャグアーティファクトを減らす軽量マスクデコーダを統合する。
VesSAMは、最先端のPEFTベースのSAMを10%以上のDiceと13%のIoUで一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-02T15:47:05Z) - TSMS-SAM2: Multi-scale Temporal Sampling Augmentation and Memory-Splitting Pruning for Promptable Video Object Segmentation and Tracking in Surgical Scenarios [1.0596160761674702]
本稿では,高速物体運動とメモリ冗長性の課題に対処して,手術ビデオにおけるVOSTの高速化を実現する新しいフレームワークであるTSMS-SAM2を提案する。
TSMS-SAM2は、動作変動に対する堅牢性を改善するためのマルチ時間スケールビデオサンプリング強化と、過去のフレーム機能を整理・フィルタリングするメモリ分割・プルーニングメカニズムの2つの主要な戦略を導入している。
論文 参考訳(メタデータ) (2025-08-07T20:11:15Z) - Depthwise-Dilated Convolutional Adapters for Medical Object Tracking and Segmentation Using the Segment Anything Model 2 [3.2852663769413106]
本稿では SAM2 の効率的な適応フレームワーク DD-SAM2 を提案する。
DD-SAM2にはDepthwise-Dilated Adapter (DD-Adapter)が組み込まれている。
DD-SAM2はSAM2のストリーミングメモリを完全に活用し、医療ビデオオブジェクトの追跡とセグメンテーションを行う。
論文 参考訳(メタデータ) (2025-07-19T13:19:55Z) - Accelerating Volumetric Medical Image Annotation via Short-Long Memory SAM 2 [12.243345510831263]
ショートロングメモリSAM 2 (SLM-SAM 2) は、セグメント化精度を向上させるために、異なる短期記憶バンクと長期記憶バンクを統合する新しいアーキテクチャである。
臓器,骨,筋肉を対象とする4つの公開データセットを用いて,MRI,CT,超音波画像のSLM-SAM 2を評価した。
論文 参考訳(メタデータ) (2025-05-03T16:16:24Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning [13.90996725220123]
SurgSAM2 は SAM2 と EFP (Efficient Frame Pruning) 機構を併用した高度なモデルであり,リアルタイムな手術ビデオ分割を容易にする。
SurgSAM2はバニラSAM2と比較して効率とセグメンテーションの精度を著しく向上させる。
実験の結果,SurgSAM2 は SAM2 と比較して 3$times$ FPS を達成できた。
論文 参考訳(メタデータ) (2024-08-15T04:59:12Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [73.06322749886483]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。