論文の概要: Real-time Surgical Instrument Segmentation in Video Using Point Tracking
and Segment Anything
- arxiv url: http://arxiv.org/abs/2403.08003v1
- Date: Tue, 12 Mar 2024 18:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 16:55:10.065090
- Title: Real-time Surgical Instrument Segmentation in Video Using Point Tracking
and Segment Anything
- Title(参考訳): ポイントトラッキングを用いたビデオにおけるリアルタイム手術機器のセグメンテーション
セグメンテーション
- Authors: Zijian Wu, Adam Schmidt, Peter Kazanzides, and Septimiu E. Salcudean
- Abstract要約: 手術器具のセグメンテーションを微調整した軽量SAMモデルとオンラインポイントトラッカーを組み合わせた新しいフレームワークを提案する。
結果は、EndoVis 2015データセット上の最先端の半教師付きビデオオブジェクトセグメンテーションメソッドを上回る。
- 参考スコア(独自算出の注目度): 9.338136334709818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Segment Anything Model (SAM) is a powerful vision foundation model that
is revolutionizing the traditional paradigm of segmentation. Despite this, a
reliance on prompting each frame and large computational cost limit its usage
in robotically assisted surgery. Applications, such as augmented reality
guidance, require little user intervention along with efficient inference to be
usable clinically. In this study, we address these limitations by adopting
lightweight SAM variants to meet the speed requirement and employing
fine-tuning techniques to enhance their generalization in surgical scenes.
Recent advancements in Tracking Any Point (TAP) have shown promising results in
both accuracy and efficiency, particularly when points are occluded or leave
the field of view. Inspired by this progress, we present a novel framework that
combines an online point tracker with a lightweight SAM model that is
fine-tuned for surgical instrument segmentation. Sparse points within the
region of interest are tracked and used to prompt SAM throughout the video
sequence, providing temporal consistency. The quantitative results surpass the
state-of-the-art semi-supervised video object segmentation method on the
EndoVis 2015 dataset, with an over 25 FPS inference speed running on a single
GeForce RTX 4060 GPU.
- Abstract(参考訳): Segment Anything Model (SAM)は、従来のセグメンテーションのパラダイムに革命をもたらす強力なビジョン基盤モデルである。
それにもかかわらず、各フレームの推進と計算コストへの依存は、ロボット支援手術における使用を制限する。
拡張現実のガイダンスのようなアプリケーションは、臨床に使用するために効率的な推論とともに、ユーザーの介入をほとんど必要としない。
本研究では,スピード要件を満たすために軽量なSAM変異体を採用し,手術シーンにおける一般化を促進するための微調整技術を用いて,これらの制限に対処する。
追跡任意の点(TAP)の最近の進歩は、特に点が排除されたり、視野を離れたりする場合、精度と効率の両面で有望な結果を示している。
この進歩に触発されて、オンラインポイントトラッカーと、手術器具のセグメンテーションのために微調整された軽量SAMモデルを組み合わせた新しいフレームワークを提案する。
関心領域内のスパースポイントが追跡され、SAMをビデオシーケンス全体を通してプロンプトし、時間的一貫性を提供する。
定量化結果は、EdoVis 2015データセット上の最先端の半教師付きビデオオブジェクトセグメンテーションメソッドを超え、単一のGeForce RTX 4060 GPU上で25以上のFPS推論速度が実行される。
関連論文リスト
- Surgical-DeSAM: Decoupling SAM for Instrument Segmentation in Robotic Surgery [9.466779367920049]
安全クリティカルな外科的タスクでは、教師あり学習のためのフレーム単位のプロンプトが欠如しているため、プロンプトは不可能である。
リアルタイムトラッキングアプリケーションのフレーム単位でのプロンプトは非現実的であり,オフラインアプリケーションのアノテートには費用がかかる。
実時間ロボット手術において,SAMを分離するための自動バウンディングボックスプロンプトを生成するために,手術用デSAMを開発した。
論文 参考訳(メタデータ) (2024-04-22T09:53:55Z) - Exploring Optical Flow Inclusion into nnU-Net Framework for Surgical Instrument Segmentation [1.3444601218847545]
nnU-Netフレームワークは、時間情報なしで単一のフレームを分析するセマンティックセグメンテーションに優れていた。
オプティカルフロー(OF)は、ビデオタスクでよく使われるツールで、動きを推定し、時間情報を含む単一のフレームで表現する。
本研究は,nU-Netアーキテクチャに付加的な入力として,オペレーショナル・インスツルメンテーション・セグメンテーション・タスクの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-03-15T11:36:26Z) - RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。
現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。
本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:30Z) - TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。
本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。
また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文 参考訳(メタデータ) (2023-12-21T12:26:11Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SiamMask: A Framework for Fast Online Object Tracking and Segmentation [96.61632757952292]
SiamMaskは、ビジュアルオブジェクトトラッキングとビデオオブジェクトセグメンテーションの両方を、同じシンプルな方法でリアルタイムで実行するためのフレームワークである。
マルチタスクモデルを簡単に再利用することで、複数のオブジェクトのトラッキングとセグメンテーションを扱うためのフレームワークを拡張することができることを示す。
ビデオオブジェクトセグメンテーションベンチマークでは、高速で競合性能を示すと同時に、ビジュアルオブジェクト追跡ベンチマークでは、リアルタイムに最先端の結果が得られる。
論文 参考訳(メタデータ) (2022-07-05T14:47:17Z) - FUN-SIS: a Fully UNsupervised approach for Surgical Instrument
Segmentation [16.881624842773604]
FUN-SISについて述べる。
我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。
手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文 参考訳(メタデータ) (2022-02-16T15:32:02Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Multi-frame Feature Aggregation for Real-time Instrument Segmentation in
Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。
また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文 参考訳(メタデータ) (2020-11-17T16:27:27Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。