論文の概要: Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning
- arxiv url: http://arxiv.org/abs/2408.07931v1
- Date: Thu, 15 Aug 2024 04:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:58:11.676066
- Title: Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning
- Title(参考訳): 外科的SAM2:効率的なフレームプルーニングによる手術ビデオにおけるリアルタイムセグメンテーション
- Authors: Haofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin,
- Abstract要約: 本稿では,SurgSAM-2 (SurgSAM-2) を用いた手術用SAM2 (SurgSAM-2) について紹介する。
SurgSAM-2はバニラSAM2と比較して効率とセグメンテーションの精度を著しく向上させる。
注目すべきは、SurgSAM-2はSAM2と比較して3$times$ FPSを達成すると同時に、低解像度データによる微調整後の最先端のパフォーマンスも提供することだ。
- 参考スコア(独自算出の注目度): 13.90996725220123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical video segmentation is a critical task in computer-assisted surgery and is vital for enhancing surgical quality and patient outcomes. Recently, the Segment Anything Model 2 (SAM2) framework has shown superior advancements in image and video segmentation. However, SAM2 struggles with efficiency due to the high computational demands of processing high-resolution images and complex and long-range temporal dynamics in surgical videos. To address these challenges, we introduce Surgical SAM 2 (SurgSAM-2), an advanced model to utilize SAM2 with an Efficient Frame Pruning (EFP) mechanism, to facilitate real-time surgical video segmentation. The EFP mechanism dynamically manages the memory bank by selectively retaining only the most informative frames, reducing memory usage and computational cost while maintaining high segmentation accuracy. Our extensive experiments demonstrate that SurgSAM-2 significantly improves both efficiency and segmentation accuracy compared to the vanilla SAM2. Remarkably, SurgSAM-2 achieves a 3$\times$ FPS compared with SAM2, while also delivering state-of-the-art performance after fine-tuning with lower-resolution data. These advancements establish SurgSAM-2 as a leading model for surgical video analysis, making real-time surgical video segmentation in resource-constrained environments a feasible reality.
- Abstract(参考訳): 外科的ビデオセグメンテーションは、コンピュータ支援手術において重要な課題であり、外科的品質と患者の結果を高めるために不可欠である。
最近、Segment Anything Model 2 (SAM2) フレームワークは、画像とビデオのセグメンテーションにおいて優れた進歩を見せている。
しかし、SAM2は高解像度画像処理の計算要求と、手術ビデオにおける複雑な時間的ダイナミックスと長距離の時間的ダイナミクスのため、効率に苦慮している。
これらの課題に対処するために, SAM2 と EFP (Efficient Frame Pruning) 機構を併用した手術用SAM2 (SurgSAM-2) を導入し, リアルタイムな手術用ビデオセグメンテーションを容易にする。
EFP機構は、最も情報性の高いフレームのみを選択的に保持し、高いセグメンテーション精度を維持しつつ、メモリ使用量と計算コストを低減し、メモリバンクを動的に管理する。
SurgSAM-2はバニラSAM2と比較して効率とセグメンテーションの精度を著しく向上することを示した。
注目すべきは、SurgSAM-2はSAM2と比較して3$\times$ FPSを達成すると同時に、低解像度のデータで微調整した後に最先端のパフォーマンスを提供することだ。
これらの進歩はSurgSAM-2を外科的ビデオ分析の指導的モデルとして確立し、資源制約環境におけるリアルタイムな外科的ビデオセグメンテーションが実現可能な現実となった。
関連論文リスト
- SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - Novel adaptation of video segmentation to 3D MRI: efficient zero-shot knee segmentation with SAM2 [1.6237741047782823]
Segment Anything Model 2 を応用した3次元膝関節MRIのゼロショット単発セグメンテーション法を提案する。
3次元医用ボリュームのスライスを個々のビデオフレームとして扱うことで、SAM2の高度な能力を利用して、モーションおよび空間認識の予測を生成する。
SAM2は、訓練や微調整を伴わずに、ゼロショット方式でセグメント化タスクを効率的に実行できることを実証する。
論文 参考訳(メタデータ) (2024-08-08T21:39:15Z) - SAM 2 in Robotic Surgery: An Empirical Evaluation for Robustness and Generalization in Surgical Video Segmentation [13.609341065893739]
本研究では,ロボット支援手術におけるSAM2のゼロショットセグメンテーション性能について,プロンプトに基づく検討を行った。
1点とバウンディングボックスの2種類のプロンプトを使用し、ビデオシーケンスでは1点プロンプトを初期フレームに適用する。
ポイントプロンプトによる結果はSAMの能力よりも大幅に向上し、既存の未進展SOTAメソッドに近づいたり超えたりしている。
論文 参考訳(メタデータ) (2024-08-08T17:08:57Z) - Is SAM 2 Better than SAM in Medical Image Segmentation? [0.6144680854063939]
Segment Anything Model (SAM) は、自然画像上のゼロショットプロンプト可能なセグメンテーションにおいて、印象的な性能を示した。
先日リリースされたSegment Anything Model 2 (SAM2)は、SAMを画像で上回り、モデルの能力をビデオセグメンテーションに拡張したと主張している。
SAM と SAM 2 の性能を比較するために,複数のデータセットを用いて広範囲にわたる研究を行った。
論文 参考訳(メタデータ) (2024-08-08T04:34:29Z) - Path-SAM2: Transfer SAM2 for digital pathology semantic segmentation [6.721564277355789]
Path-SAM2はSAM2モデルに初めて適応し,病的セマンティックセグメンテーションの課題に適応する。
病理組織学における最大の事前学習型視覚エンコーダ(UNI)とオリジナルのSAM2エンコーダを統合し,病理学に基づく事前知識を付加する。
3つの腺腫の病理データセットにおいて、Path-SAM2は最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-07T09:30:51Z) - Zero-Shot Surgical Tool Segmentation in Monocular Video Using Segment Anything Model 2 [4.418542191434178]
Segment Anything Model 2 (SAM2)は、画像とビデオのセグメンテーションのための最新の基礎モデルである。
内視鏡検査や顕微鏡検査など,異なるタイプの手術におけるSAM2モデルのゼロショット映像分割性能について検討した。
1) SAM2は, 各種手術ビデオのセグメンテーション能力を示す。2) 新たなツールが現場に入ると, セグメンテーションの精度を維持するために追加のプロンプトが必要であり, 3) 手術ビデオに固有の課題はSAM2のロバスト性に影響を与える。
論文 参考訳(メタデータ) (2024-08-03T03:19:56Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - SurgicalSAM: Efficient Class Promptable Surgical Instrument Segmentation [65.52097667738884]
そこで本研究では,SAMの知識と外科的特異的情報を統合し,汎用性を向上させるための,新しいエンドツーエンドの効率的なチューニング手法であるScientialSAMを紹介した。
具体的には,タイピングのための軽量なプロトタイプベースクラスプロンプトエンコーダを提案し,クラスプロトタイプから直接プロンプト埋め込みを生成する。
また,手術器具カテゴリー間のクラス間差異の低さに対応するために,コントラッシブなプロトタイプ学習を提案する。
論文 参考訳(メタデータ) (2023-08-17T02:51:01Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。