論文の概要: Less is More? Revisiting the Importance of Frame Rate in Real-Time Zero-Shot Surgical Video Segmentation
- arxiv url: http://arxiv.org/abs/2502.20934v1
- Date: Fri, 28 Feb 2025 10:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:40.443633
- Title: Less is More? Revisiting the Importance of Frame Rate in Real-Time Zero-Shot Surgical Video Segmentation
- Title(参考訳): より少ないか? リアルタイムゼロショット手術ビデオセグメンテーションにおけるフレームレートの重要性を再考する
- Authors: Utku Ozbulak, Seyed Amir Mousavi, Francesca Tozzi, Nikdokht Rashidian, Wouter Willaert, Wesley De Neve, Joris Vankerschaver,
- Abstract要約: 胆嚢摘出術におけるフレームレートがゼロショット手術ビデオセグメンテーションに及ぼす影響について検討し,複数のフレームサンプリングレートでSAM2の有効性を評価した。
意外なことに,従来の評価設定では,フレームレートが1秒あたりの1フレームあたりのフレームレートが25FPSを上回ることが示唆された。
リアルタイムストリーミングのシナリオでは、高いフレームレートが時間的コヒーレンスと安定性を、特に外科的把握器のような動的対象に対して向上させる。
- 参考スコア(独自算出の注目度): 1.0536099636804035
- License:
- Abstract: Real-time video segmentation is a promising feature for AI-assisted surgery, providing intraoperative guidance by identifying surgical tools and anatomical structures. However, deploying state-of-the-art segmentation models, such as SAM2, in real-time settings is computationally demanding, which makes it essential to balance frame rate and segmentation performance. In this study, we investigate the impact of frame rate on zero-shot surgical video segmentation, evaluating SAM2's effectiveness across multiple frame sampling rates for cholecystectomy procedures. Surprisingly, our findings indicate that in conventional evaluation settings, frame rates as low as a single frame per second can outperform 25 FPS, as fewer frames smooth out segmentation inconsistencies. However, when assessed in a real-time streaming scenario, higher frame rates yield superior temporal coherence and stability, particularly for dynamic objects such as surgical graspers. Finally, we investigate human perception of real-time surgical video segmentation among professionals who work closely with such data and find that respondents consistently prefer high FPS segmentation mask overlays, reinforcing the importance of real-time evaluation in AI-assisted surgery.
- Abstract(参考訳): リアルタイムビデオセグメンテーションはAI支援手術において有望な機能であり、手術器具や解剖学的構造を識別して術中指導を提供する。
しかし、SAM2のような最先端セグメンテーションモデルをリアルタイム設定にデプロイすることは、計算的に要求されるため、フレームレートとセグメンテーション性能のバランスをとることが不可欠である。
本研究では, 胆嚢摘出術におけるフレームレートがゼロショット手術ビデオセグメンテーションに及ぼす影響について検討し, 複数のフレームサンプリングレートにおけるSAM2の有効性について検討した。
意外なことに,従来の評価設定では,フレームレートが1秒あたりの1フレームあたりのフレームレートが25FPSを上回ることが示唆された。
しかし、リアルタイムストリーミングのシナリオで評価すると、特に外科的把握器のような動的対象に対して、フレームレートが高いと時間的コヒーレンスや安定性が向上する。
最後に、これらのデータと密接に連携するプロの間でリアルタイムな手術映像のセグメンテーションに対する人間の認識を調査し、回答者は、AI支援手術におけるリアルタイム評価の重要性を強くし、高いFPSセグメンテーションマスクオーバレイを一貫して好んでいることを発見した。
関連論文リスト
- Efficient Frame Extraction: A Novel Approach Through Frame Similarity and Surgical Tool Tracking for Video Segmentation [1.6092864505858449]
本稿では,余剰フレームを効率的に除去し,データセットのサイズや計算時間を短縮する手法を提案する。
具体的には,手術器具の移動を追跡することで,連続するフレーム間の類似性を計算する。
フレームを適応的に選択することにより,フレーム数を10倍に削減し,精度を4.32%向上させる。
論文 参考訳(メタデータ) (2025-01-19T19:36:09Z) - WeakSurg: Weakly supervised surgical instrument segmentation using temporal equivariance and semantic continuity [14.448593791011204]
本稿では,楽器の有無ラベルのみを付与した手術器具セグメンテーションを提案する。
手術ビデオの時間的特性を考慮し,2段階の弱教師付きセグメンテーションパラダイムを拡張した。
1つの胆嚢摘出手術ベンチマークと1つの実際のロボット左外側肝外科手術データセットを含む2つの手術ビデオデータセットで実験が検証されている。
論文 参考訳(メタデータ) (2024-03-14T16:39:11Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - A spatio-temporal network for video semantic segmentation in surgical
videos [11.548181453080087]
ビデオにおける時間的関係をモデル化するための新しいアーキテクチャを提案する。
提案モデルは,セマンティックビデオセグメンテーションを可能にするデコーダを含む。
提案するデコーダは,任意のセグメンテーションエンコーダ上で時間的整合性を改善するために使用することができる。
論文 参考訳(メタデータ) (2023-06-19T16:36:48Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Multi-frame Feature Aggregation for Real-time Instrument Segmentation in
Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。
また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文 参考訳(メタデータ) (2020-11-17T16:27:27Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。