論文の概要: SASVi - Segment Any Surgical Video
- arxiv url: http://arxiv.org/abs/2502.09653v1
- Date: Wed, 12 Feb 2025 00:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:44:36.367807
- Title: SASVi - Segment Any Surgical Video
- Title(参考訳): SASVi - 手術用ビデオのセグメンテーション
- Authors: Ssharvien Kumar Sivakumar, Yannik Frisch, Amin Ranem, Anirban Mukhopadhyay,
- Abstract要約: 本研究では,フレームワイズMask R-CNN Overseerモデルに基づく新しい再プロンプト機構であるSASViを提案する。
このモデルは、シーンの星座が変化すると、基盤モデルSAM2を自動で再起動する。
- 参考スコア(独自算出の注目度): 2.330834737588252
- License:
- Abstract: Purpose: Foundation models, trained on multitudes of public datasets, often require additional fine-tuning or re-prompting mechanisms to be applied to visually distinct target domains such as surgical videos. Further, without domain knowledge, they cannot model the specific semantics of the target domain. Hence, when applied to surgical video segmentation, they fail to generalise to sections where previously tracked objects leave the scene or new objects enter. Methods: We propose SASVi, a novel re-prompting mechanism based on a frame-wise Mask R-CNN Overseer model, which is trained on a minimal amount of scarcely available annotations for the target domain. This model automatically re-prompts the foundation model SAM2 when the scene constellation changes, allowing for temporally smooth and complete segmentation of full surgical videos. Results: Re-prompting based on our Overseer model significantly improves the temporal consistency of surgical video segmentation compared to similar prompting techniques and especially frame-wise segmentation, which neglects temporal information, by at least 1.5%. Our proposed approach allows us to successfully deploy SAM2 to surgical videos, which we quantitatively and qualitatively demonstrate for three different cholecystectomy and cataract surgery datasets. Conclusion: SASVi can serve as a new baseline for smooth and temporally consistent segmentation of surgical videos with scarcely available annotation data. Our method allows us to leverage scarce annotations and obtain complete annotations for full videos of the large-scale counterpart datasets. We make those annotations publicly available, providing extensive annotation data for the future development of surgical data science models.
- Abstract(参考訳): 目的: 複数の公開データセットに基づいてトレーニングされたファンデーションモデルは、手術ビデオのような視覚的に異なるターゲットドメインに適用するために、追加の微調整または再プロンプト機構を必要とすることが多い。
さらに、ドメインの知識がなければ、ターゲットドメインの特定のセマンティクスをモデル化することはできない。
したがって、手術ビデオのセグメンテーションに適用すると、前もって追跡された物体がシーンを離れたり、新しい物体が入ってくる部分への一般化に失敗する。
方法: SASViはフレームワイドのMask R-CNN Overseerモデルに基づく新しい再プロンプト機構である。
このモデルは、シーンの星座が変化すると、基盤モデルSAM2が自動的に再ジャンプし、時間的に滑らかで完全な外科的ビデオのセグメンテーションを可能にする。
結果: 海外モデルに基づく再プロンプトは, 同様のプロンプト技術, 特に時間情報を無視するフレームワイドセグメンテーションに比べて, 術中ビデオセグメンテーションの時間的一貫性を少なくとも1.5%向上させる。
提案手法は,3種類の胆嚢摘出術と白内障手術データセットを定量的に,質的に検証し,SAM2を手術ビデオに展開することを可能にする。
結論: SASViは,手軽に利用可能なアノテーションデータを備えた外科的ビデオのスムーズかつ時間的に一貫したセグメンテーションのための,新たなベースラインとして機能する。
提案手法では,不足するアノテーションを利用して,大規模データセットのフルビデオの完全なアノテーションを得ることができる。
我々はこれらのアノテーションを公開し、手術データ科学モデルの将来開発のための広範なアノテーションデータを提供する。
関連論文リスト
- TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation [2.9776992449863613]
現在のビデオ分析は、手作業によるインデックス作成に依存している。
TEMSET-24Kは,経肛門的内視鏡的マイクロサマリー(TEMS)ビデオマイクロクリップからなるオープンソースデータセットである。
各クリップは、新しい階層的ラベリング分類を用いて、臨床専門家によって慎重に注釈付けされる。
論文 参考訳(メタデータ) (2025-02-10T17:37:34Z) - Is Segment Anything Model 2 All You Need for Surgery Video Segmentation? A Systematic Evaluation [25.459372606957736]
本稿では,ゼロショット手術映像分割作業におけるSAM2モデルの性能を体系的に評価する。
我々は、異なるプロンプト戦略やロバスト性など、異なる構成で実験を行った。
論文 参考訳(メタデータ) (2024-12-31T16:20:05Z) - VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - A spatio-temporal network for video semantic segmentation in surgical
videos [11.548181453080087]
ビデオにおける時間的関係をモデル化するための新しいアーキテクチャを提案する。
提案モデルは,セマンティックビデオセグメンテーションを可能にするデコーダを含む。
提案するデコーダは,任意のセグメンテーションエンコーダ上で時間的整合性を改善するために使用することができる。
論文 参考訳(メタデータ) (2023-06-19T16:36:48Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Temporally Constrained Neural Networks (TCNN): A framework for
semi-supervised video semantic segmentation [5.0754434714665715]
本稿では,手術ビデオのセマンティックセグメンテーションに使用される半教師付きフレームワークTCNNを紹介する。
本研究では,オートエンコーダネットワークを用いて,空間的および時間的監視信号の両方を効率的に提供できることを示す。
予測マスクの低次元表現を有効活用して,スパースラベル付き両方のデータセットに一貫した改善を実現することを実証した。
論文 参考訳(メタデータ) (2021-12-27T18:06:12Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Towards Unsupervised Learning for Instrument Segmentation in Robotic
Surgery with Cycle-Consistent Adversarial Networks [54.00217496410142]
本稿では、入力された内視鏡画像と対応するアノテーションとのマッピングを学習することを目的として、未ペア画像から画像への変換を提案する。
当社のアプローチでは,高価なアノテーションを取得することなく,イメージセグメンテーションモデルをトレーニングすることが可能です。
提案手法をEndovis 2017チャレンジデータセットで検証し,教師付きセグメンテーション手法と競合することを示す。
論文 参考訳(メタデータ) (2020-07-09T01:39:39Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。