Fugu-MT 論文翻訳(概要): Real-time Surgical Instrument Segmentation in Video Using Point Tracking and Segment Anything

論文の概要: Real-time Surgical Instrument Segmentation in Video Using Point Tracking and Segment Anything

arxiv url: http://arxiv.org/abs/2403.08003v1
Date: Tue, 12 Mar 2024 18:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 16:55:10.065090
Title: Real-time Surgical Instrument Segmentation in Video Using Point Tracking and Segment Anything
Title（参考訳）: ポイントトラッキングを用いたビデオにおけるリアルタイム手術機器のセグメンテーションセグメンテーション
Authors: Zijian Wu, Adam Schmidt, Peter Kazanzides, and Septimiu E. Salcudean
Abstract要約: 手術器具のセグメンテーションを微調整した軽量SAMモデルとオンラインポイントトラッカーを組み合わせた新しいフレームワークを提案する。結果は、EndoVis 2015データセット上の最先端の半教師付きビデオオブジェクトセグメンテーションメソッドを上回る。
参考スコア（独自算出の注目度）: 9.338136334709818
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Segment Anything Model (SAM) is a powerful vision foundation model that is revolutionizing the traditional paradigm of segmentation. Despite this, a reliance on prompting each frame and large computational cost limit its usage in robotically assisted surgery. Applications, such as augmented reality guidance, require little user intervention along with efficient inference to be usable clinically. In this study, we address these limitations by adopting lightweight SAM variants to meet the speed requirement and employing fine-tuning techniques to enhance their generalization in surgical scenes. Recent advancements in Tracking Any Point (TAP) have shown promising results in both accuracy and efficiency, particularly when points are occluded or leave the field of view. Inspired by this progress, we present a novel framework that combines an online point tracker with a lightweight SAM model that is fine-tuned for surgical instrument segmentation. Sparse points within the region of interest are tracked and used to prompt SAM throughout the video sequence, providing temporal consistency. The quantitative results surpass the state-of-the-art semi-supervised video object segmentation method on the EndoVis 2015 dataset, with an over 25 FPS inference speed running on a single GeForce RTX 4060 GPU.
Abstract（参考訳）: Segment Anything Model (SAM)は、従来のセグメンテーションのパラダイムに革命をもたらす強力なビジョン基盤モデルである。それにもかかわらず、各フレームの推進と計算コストへの依存は、ロボット支援手術における使用を制限する。拡張現実のガイダンスのようなアプリケーションは、臨床に使用するために効率的な推論とともに、ユーザーの介入をほとんど必要としない。本研究では,スピード要件を満たすために軽量なSAM変異体を採用し,手術シーンにおける一般化を促進するための微調整技術を用いて,これらの制限に対処する。追跡任意の点(TAP)の最近の進歩は、特に点が排除されたり、視野を離れたりする場合、精度と効率の両面で有望な結果を示している。この進歩に触発されて、オンラインポイントトラッカーと、手術器具のセグメンテーションのために微調整された軽量SAMモデルを組み合わせた新しいフレームワークを提案する。関心領域内のスパースポイントが追跡され、SAMをビデオシーケンス全体を通してプロンプトし、時間的一貫性を提供する。定量化結果は、EdoVis 2015データセット上の最先端の半教師付きビデオオブジェクトセグメンテーションメソッドを超え、単一のGeForce RTX 4060 GPU上で25以上のFPS推論速度が実行される。

関連論文リスト

Depthwise-Dilated Convolutional Adapters for Medical Object Tracking and Segmentation Using the Segment Anything Model 2 [1.0596160761674702]
本稿では SAM2 の効率的な適応フレームワーク DD-SAM2 を提案する。 DD-SAM2にはDepthwise-Dilated Adapter (DD-Adapter)が組み込まれている。 DD-SAM2はSAM2のストリーミングメモリを完全に活用し、医療ビデオオブジェクトの追跡とセグメンテーションを行う。
論文参考訳（メタデータ） (2025-07-19T13:19:55Z)
Efficient Frame Extraction: A Novel Approach Through Frame Similarity and Surgical Tool Tracking for Video Segmentation [0.0]
本稿では,余剰フレームを効率的に除去し,データセットのサイズや計算時間を短縮する手法を提案する。具体的には,手術器具の移動を追跡することで,連続するフレーム間の類似性を計算する。症例の振り返りレビューから得られたデータセットを解析し,提案手法の有効性を評価する。
論文参考訳（メタデータ） (2025-01-19T19:36:09Z)
EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文参考訳（メタデータ） (2025-01-13T12:11:07Z)
Novel adaptation of video segmentation to 3D MRI: efficient zero-shot knee segmentation with SAM2 [1.6237741047782823]
Segment Anything Model 2 を応用した3次元膝関節MRIのゼロショット単発セグメンテーション法を提案する。 3次元医用ボリュームのスライスを個々のビデオフレームとして扱うことで、SAM2の高度な能力を利用して、モーションおよび空間認識の予測を生成する。 SAM2は、訓練や微調整を伴わずに、ゼロショット方式でセグメント化タスクを効率的に実行できることを実証する。
論文参考訳（メタデータ） (2024-08-08T21:39:15Z)
ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。 SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。 CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文参考訳（メタデータ） (2024-06-30T14:55:32Z)
Surgical-DeSAM: Decoupling SAM for Instrument Segmentation in Robotic Surgery [9.466779367920049]
安全クリティカルな外科的タスクでは、教師あり学習のためのフレーム単位のプロンプトが欠如しているため、プロンプトは不可能である。リアルタイムトラッキングアプリケーションのフレーム単位でのプロンプトは非現実的であり,オフラインアプリケーションのアノテートには費用がかかる。実時間ロボット手術において,SAMを分離するための自動バウンディングボックスプロンプトを生成するために,手術用デSAMを開発した。
論文参考訳（メタデータ） (2024-04-22T09:53:55Z)
RAP-SAM: Towards Real-Time All-Purpose Segment Anything [120.17175256421622]
Segment Anything Model (SAM) は、一般化されたセグメンテーションを実現するための注目すべきモデルである。現在のリアルタイムセグメンテーションは、主に運転シーンのセグメンテーションのような1つの目的を持っている。本研究は、リアルタイムデプロイメントにおけるVFMの転送を実現するために、リアルタイムに全目的セグメンテーションと呼ばれる新しいリアルタイムセグメンテーション設定を提案する。
論文参考訳（メタデータ） (2024-01-18T18:59:30Z)
TinySAM: Pushing the Envelope for Efficient Segment Anything Model [76.21007576954035]
我々は,強力なゼロショット性能を維持しつつ,小さなセグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いた,フルステージの知識蒸留法を提案する。また、学習後の量子化を高速化可能なセグメンテーションタスクに適用し、計算コストをさらに削減する。
論文参考訳（メタデータ） (2023-12-21T12:26:11Z)
Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。 DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文参考訳（メタデータ） (2023-07-03T17:58:01Z)
Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文参考訳（メタデータ） (2023-02-22T12:09:39Z)
Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文参考訳（メタデータ） (2022-07-20T05:42:19Z)
FUN-SIS: a Fully UNsupervised approach for Surgical Instrument Segmentation [16.881624842773604]
FUN-SISについて述べる。我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文参考訳（メタデータ） (2022-02-16T15:32:02Z)
Efficient Global-Local Memory for Real-time Instrument Segmentation of Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文参考訳（メタデータ） (2021-09-28T10:10:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。