論文の概要: Memory-Augmented SAM2 for Training-Free Surgical Video Segmentation
- arxiv url: http://arxiv.org/abs/2507.09577v1
- Date: Sun, 13 Jul 2025 11:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.560061
- Title: Memory-Augmented SAM2 for Training-Free Surgical Video Segmentation
- Title(参考訳): 記憶機能付きSAM2による無手術ビデオセグメンテーション
- Authors: Ming Yin, Fu Wang, Xujiong Ye, Yanda Meng, Zeyu Fu,
- Abstract要約: トレーニング不要なビデオオブジェクトセグメンテーション戦略である Memory Augmented (MA)-SAM2 を導入する。
MA-SAM2は、複雑な楽器の動きから生じる閉塞や相互作用に対して強い堅牢性を示す。
MA-SAM2は追加のパラメータを導入せず、さらなるトレーニングも必要とせず、EndoVis 2017とEndoVis 2018データセットでSAM2よりも4.36%と6.1%のパフォーマンス向上を達成した。
- 参考スコア(独自算出の注目度): 18.71772979219666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical video segmentation is a critical task in computer-assisted surgery, essential for enhancing surgical quality and patient outcomes. Recently, the Segment Anything Model 2 (SAM2) framework has demonstrated remarkable advancements in both image and video segmentation. However, the inherent limitations of SAM2's greedy selection memory design are amplified by the unique properties of surgical videos-rapid instrument movement, frequent occlusion, and complex instrument-tissue interaction-resulting in diminished performance in the segmentation of complex, long videos. To address these challenges, we introduce Memory Augmented (MA)-SAM2, a training-free video object segmentation strategy, featuring novel context-aware and occlusion-resilient memory models. MA-SAM2 exhibits strong robustness against occlusions and interactions arising from complex instrument movements while maintaining accuracy in segmenting objects throughout videos. Employing a multi-target, single-loop, one-prompt inference further enhances the efficiency of the tracking process in multi-instrument videos. Without introducing any additional parameters or requiring further training, MA-SAM2 achieved performance improvements of 4.36% and 6.1% over SAM2 on the EndoVis2017 and EndoVis2018 datasets, respectively, demonstrating its potential for practical surgical applications.
- Abstract(参考訳): 外科的ビデオセグメンテーションは、コンピュータ支援手術において重要な課題であり、外科的品質と患者の結果を高めるのに不可欠である。
近年,Segment Anything Model 2 (SAM2) フレームワークは画像とビデオのセグメンテーションにおいて顕著な進歩を見せている。
しかし、SAM2のグリーディ選択メモリ設計の固有の制限は、複雑な長いビデオのセグメンテーションにおいて、手術用ビデオラピッド楽器運動、頻繁な閉塞、複雑な機器と機器間の相互作用が減少するというユニークな性質によって増幅される。
これらの課題に対処するために、トレーニング不要なビデオオブジェクトセグメンテーション戦略であるMemory Augmented (MA)-SAM2を導入する。
MA-SAM2は、複雑な楽器の動きから生じるオクルージョンや相互作用に対して強い堅牢性を示しながら、ビデオ全体を通してオブジェクトのセグメンテーションの精度を維持している。
マルチターゲットのシングルループを用いたワンプロンプト推論は、マルチインストラクションビデオにおけるトラッキングプロセスの効率をさらに向上させる。
MA-SAM2は追加のパラメータを導入することなく、EndoVis2017データセットとEndoVis2018データセットでSAM2よりも4.36%と6.1%の性能向上を達成した。
関連論文リスト
- Depthwise-Dilated Convolutional Adapters for Medical Object Tracking and Segmentation Using the Segment Anything Model 2 [1.0596160761674702]
本稿では SAM2 の効率的な適応フレームワーク DD-SAM2 を提案する。
DD-SAM2にはDepthwise-Dilated Adapter (DD-Adapter)が組み込まれている。
DD-SAM2はSAM2のストリーミングメモリを完全に活用し、医療ビデオオブジェクトの追跡とセグメンテーションを行う。
論文 参考訳(メタデータ) (2025-07-19T13:19:55Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。
実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Accelerating Volumetric Medical Image Annotation via Short-Long Memory SAM 2 [10.279314732888079]
ショートロングメモリSAM 2 (SLM-SAM 2) は、セグメント化精度を向上させるために、異なる短期記憶バンクと長期記憶バンクを統合する新しいアーキテクチャである。
臓器, 骨, 筋肉の3つの公開データセットからSLM-SAM 2をMRIおよびCTで評価した。
論文 参考訳(メタデータ) (2025-05-03T16:16:24Z) - DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency [91.30252180093333]
In-context segmentation に SAM と SAM2 を適応させるプロンプトチューニングに基づく Dual Consistency SAM (DCSAM) 法を提案する。
我々の重要な洞察は、高品質な視覚的プロンプトを提供することにより、SAMのセグメンテーションにおけるプロンプトエンコーダの機能を強化することである。
提案したDC-SAMは主に画像用に設計されているが、SAM2のサポートによりビデオ領域にシームレスに拡張できる。
論文 参考訳(メタデータ) (2025-04-16T13:41:59Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning [13.90996725220123]
SurgSAM2 は SAM2 と EFP (Efficient Frame Pruning) 機構を併用した高度なモデルであり,リアルタイムな手術ビデオ分割を容易にする。
SurgSAM2はバニラSAM2と比較して効率とセグメンテーションの精度を著しく向上させる。
実験の結果,SurgSAM2 は SAM2 と比較して 3$times$ FPS を達成できた。
論文 参考訳(メタデータ) (2024-08-15T04:59:12Z) - SAM 2 in Robotic Surgery: An Empirical Evaluation for Robustness and Generalization in Surgical Video Segmentation [13.609341065893739]
本研究では,ロボット支援手術におけるSAM2のゼロショットセグメンテーション性能について,プロンプトに基づく検討を行った。
1点とバウンディングボックスの2種類のプロンプトを使用し、ビデオシーケンスでは1点プロンプトを初期フレームに適用する。
ポイントプロンプトによる結果はSAMの能力よりも大幅に向上し、既存の未進展SOTAメソッドに近づいたり超えたりしている。
論文 参考訳(メタデータ) (2024-08-08T17:08:57Z) - Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2 [4.418542191434178]
Segment Anything Model 2 (SAM2)は、画像とビデオのセグメンテーションのための最新の基礎モデルである。
内視鏡検査や顕微鏡検査など,異なるタイプの手術におけるSAM2モデルのゼロショット映像分割性能について検討した。
1) SAM2は, 各種手術ビデオのセグメンテーション能力を示す。2) 新たなツールが現場に入ると, セグメンテーションの精度を維持するために追加のプロンプトが必要であり, 3) 手術ビデオに固有の課題はSAM2のロバスト性に影響を与える。
論文 参考訳(メタデータ) (2024-08-03T03:19:56Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。