論文の概要: Real-time Surgical Instrument Segmentation in Video Using Point Tracking
and Segment Anything
- arxiv url: http://arxiv.org/abs/2403.08003v1
- Date: Tue, 12 Mar 2024 18:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:55:10.065090
- Title: Real-time Surgical Instrument Segmentation in Video Using Point Tracking
and Segment Anything
- Title(参考訳): ポイントトラッキングを用いたビデオにおけるリアルタイム手術機器のセグメンテーション
セグメンテーション
- Authors: Zijian Wu, Adam Schmidt, Peter Kazanzides, and Septimiu E. Salcudean
- Abstract要約: 手術器具のセグメンテーションを微調整した軽量SAMモデルとオンラインポイントトラッカーを組み合わせた新しいフレームワークを提案する。
結果は、EndoVis 2015データセット上の最先端の半教師付きビデオオブジェクトセグメンテーションメソッドを上回る。
- 参考スコア(独自算出の注目度): 9.338136334709818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model (SAM) is a powerful vision foundation model that
is revolutionizing the traditional paradigm of segmentation. Despite this, a
reliance on prompting each frame and large computational cost limit its usage
in robotically assisted surgery. Applications, such as augmented reality
guidance, require little user intervention along with efficient inference to be
usable clinically. In this study, we address these limitations by adopting
lightweight SAM variants to meet the speed requirement and employing
fine-tuning techniques to enhance their generalization in surgical scenes.
Recent advancements in Tracking Any Point (TAP) have shown promising results in
both accuracy and efficiency, particularly when points are occluded or leave
the field of view. Inspired by this progress, we present a novel framework that
combines an online point tracker with a lightweight SAM model that is
fine-tuned for surgical instrument segmentation. Sparse points within the
region of interest are tracked and used to prompt SAM throughout the video
sequence, providing temporal consistency. The quantitative results surpass the
state-of-the-art semi-supervised video object segmentation method on the
EndoVis 2015 dataset, with an over 25 FPS inference speed running on a single
GeForce RTX 4060 GPU.
- Abstract(参考訳): Segment Anything Model (SAM)は、従来のセグメンテーションのパラダイムに革命をもたらす強力なビジョン基盤モデルである。
それにもかかわらず、各フレームの推進と計算コストへの依存は、ロボット支援手術における使用を制限する。
拡張現実のガイダンスのようなアプリケーションは、臨床に使用するために効率的な推論とともに、ユーザーの介入をほとんど必要としない。
本研究では,スピード要件を満たすために軽量なSAM変異体を採用し,手術シーンにおける一般化を促進するための微調整技術を用いて,これらの制限に対処する。
追跡任意の点(TAP)の最近の進歩は、特に点が排除されたり、視野を離れたりする場合、精度と効率の両面で有望な結果を示している。
この進歩に触発されて、オンラインポイントトラッカーと、手術器具のセグメンテーションのために微調整された軽量SAMモデルを組み合わせた新しいフレームワークを提案する。
関心領域内のスパースポイントが追跡され、SAMをビデオシーケンス全体を通してプロンプトし、時間的一貫性を提供する。
定量化結果は、EdoVis 2015データセット上の最先端の半教師付きビデオオブジェクトセグメンテーションメソッドを超え、単一のGeForce RTX 4060 GPU上で25以上のFPS推論速度が実行される。
関連論文リスト
- Novel adaptation of video segmentation to 3D MRI: efficient zero-shot knee segmentation with SAM2 [1.6237741047782823]
Segment Anything Model 2 を応用した3次元膝関節MRIのゼロショット単発セグメンテーション法を提案する。
3次元医用ボリュームのスライスを個々のビデオフレームとして扱うことで、SAM2の高度な能力を利用して、モーションおよび空間認識の予測を生成する。
SAM2は、訓練や微調整を伴わずに、ゼロショット方式でセグメント化タスクを効率的に実行できることを実証する。
論文 参考訳(メタデータ) (2024-08-08T21:39:15Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - Surgical-DeSAM: Decoupling SAM for Instrument Segmentation in Robotic Surgery [9.466779367920049]
安全クリティカルな外科的タスクでは、教師あり学習のためのフレーム単位のプロンプトが欠如しているため、プロンプトは不可能である。
リアルタイムトラッキングアプリケーションのフレーム単位でのプロンプトは非現実的であり,オフラインアプリケーションのアノテートには費用がかかる。
実時間ロボット手術において,SAMを分離するための自動バウンディングボックスプロンプトを生成するために,手術用デSAMを開発した。
論文 参考訳(メタデータ) (2024-04-22T09:53:55Z) - RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - FUN-SIS: a Fully UNsupervised approach for Surgical Instrument
Segmentation [16.881624842773604]
FUN-SISについて述べる。
我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。
手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文 参考訳(メタデータ) (2022-02-16T15:32:02Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。