論文の概要: Revisiting the Evaluation Bias Introduced by Frame Sampling Strategies in Surgical Video Segmentation Using SAM2
- arxiv url: http://arxiv.org/abs/2502.20934v3
- Date: Thu, 31 Jul 2025 02:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:44.832858
- Title: Revisiting the Evaluation Bias Introduced by Frame Sampling Strategies in Surgical Video Segmentation Using SAM2
- Title(参考訳): SAM2を用いた外科用ビデオセグメンテーションにおけるフレームサンプリング手法による評価バイアスの再検討
- Authors: Utku Ozbulak, Seyed Amir Mousavi, Francesca Tozzi, Niki Rashidian, Wouter Willaert, Wesley De Neve, Joris Vankerschaver,
- Abstract要約: アノテーション密度とフレームレートサンプリングの不整合がゼロショットセグメンテーションモデルの評価に与える影響について検討する。
フレームレートの低下は,時間的不整合を隠蔽するスムーズな効果により,より高いフレームレートを達成できることがわかった。
リアルタイムストリーミング条件で評価すると、フレームレートが高いとセグメンテーション安定性が向上する。
- 参考スコア(独自算出の注目度): 1.0536099636804035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time video segmentation is a promising opportunity for AI-assisted surgery, offering intraoperative guidance by identifying tools and anatomical structures. Despite growing interest in surgical video segmentation, annotation protocols vary widely across datasets -- some provide dense, frame-by-frame labels, while others rely on sparse annotations sampled at low frame rates such as 1 FPS. In this study, we investigate how such inconsistencies in annotation density and frame rate sampling influence the evaluation of zero-shot segmentation models, using SAM2 as a case study for cholecystectomy procedures. Surprisingly, we find that under conventional sparse evaluation settings, lower frame rates can appear to outperform higher ones due to a smoothing effect that conceals temporal inconsistencies. However, when assessed under real-time streaming conditions, higher frame rates yield superior segmentation stability, particularly for dynamic objects like surgical graspers. To understand how these differences align with human perception, we conducted a survey among surgeons, nurses, and machine learning engineers and found that participants consistently preferred high-FPS segmentation overlays, reinforcing the importance of evaluating every frame in real-time applications rather than relying on sparse sampling strategies. Our findings highlight the risk of evaluation bias that is introduced by inconsistent dataset protocols and bring attention to the need for temporally fair benchmarking in surgical video AI.
- Abstract(参考訳): リアルタイムビデオセグメンテーションは、AI支援手術の有望な機会であり、ツールと解剖学的構造を特定することで術中ガイダンスを提供する。
外科的ビデオセグメンテーションへの関心は高まっているが、アノテーションプロトコルはデータセットによって大きく異なる - 密度の高いフレーム単位のラベルを提供するものもあれば、1 FPSのような低フレームレートでサンプリングされたスパースアノテーションに依存するものもある。
本研究では, アノテーション密度とフレームレートサンプリングの不整合がゼロショットセグメンテーションモデルの評価にどのように影響するかを, SAM2を胆嚢摘出術のケーススタディとして検討した。
意外なことに,従来のスパース評価設定では,時間的不整合を隠蔽するスムーズな効果により,フレームレートの低下が上位のフレームよりも優れていることが判明した。
しかし、リアルタイムストリーミング条件下での評価では、高いフレームレートは、特に外科的把握器のような動的対象に対して、より優れたセグメンテーション安定性をもたらす。
これらの違いが人間の知覚とどのように一致しているかを理解するため、外科医、看護師、機械学習エンジニアの間で調査を行い、参加者はスパースサンプリング戦略に頼るのではなく、リアルタイムアプリケーションにおける全てのフレームを評価することの重要性を強くし、常に高いFPSセグメンテーションオーバレイを好んでいることを発見した。
本研究は, 整合性データセットプロトコルによって導入される評価バイアスのリスクを強調し, 術中ビデオAIにおける時間的公正なベンチマークの必要性に注意を向けるものである。
関連論文リスト
- Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - Efficient Frame Extraction: A Novel Approach Through Frame Similarity and Surgical Tool Tracking for Video Segmentation [1.6092864505858449]
本稿では,余剰フレームを効率的に除去し,データセットのサイズや計算時間を短縮する手法を提案する。
具体的には,手術器具の移動を追跡することで,連続するフレーム間の類似性を計算する。
フレームを適応的に選択することにより,フレーム数を10倍に削減し,精度を4.32%向上させる。
論文 参考訳(メタデータ) (2025-01-19T19:36:09Z) - WeakSurg: Weakly supervised surgical instrument segmentation using temporal equivariance and semantic continuity [14.448593791011204]
本稿では,楽器の有無ラベルのみを付与した手術器具セグメンテーションを提案する。
手術ビデオの時間的特性を考慮し,2段階の弱教師付きセグメンテーションパラダイムを拡張した。
1つの胆嚢摘出手術ベンチマークと1つの実際のロボット左外側肝外科手術データセットを含む2つの手術ビデオデータセットで実験が検証されている。
論文 参考訳(メタデータ) (2024-03-14T16:39:11Z) - Augmenting Efficient Real-time Surgical Instrument Segmentation in Video with Point Tracking and Segment Anything [9.338136334709818]
手術器具のセグメンテーションを微調整した軽量SAMモデルとオンラインポイントトラッカーを組み合わせた新しいフレームワークを提案する。
関心領域内のスパースポイントが追跡され、SAMをビデオシーケンス全体を通してプロンプトし、時間的一貫性を提供する。
提案手法は,XMemとトランスフォーマーをベースとした完全教師付きセグメンテーション手法に匹敵する有望な性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T18:12:42Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - A spatio-temporal network for video semantic segmentation in surgical
videos [11.548181453080087]
ビデオにおける時間的関係をモデル化するための新しいアーキテクチャを提案する。
提案モデルは,セマンティックビデオセグメンテーションを可能にするデコーダを含む。
提案するデコーダは,任意のセグメンテーションエンコーダ上で時間的整合性を改善するために使用することができる。
論文 参考訳(メタデータ) (2023-06-19T16:36:48Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Multi-frame Feature Aggregation for Real-time Instrument Segmentation in
Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。
また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文 参考訳(メタデータ) (2020-11-17T16:27:27Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。