論文の概要: Surgical Scene Segmentation using a Spike-Driven Video Transformer with Real-Time Potential
- arxiv url: http://arxiv.org/abs/2512.21284v1
- Date: Wed, 24 Dec 2025 17:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.83569
- Title: Surgical Scene Segmentation using a Spike-Driven Video Transformer with Real-Time Potential
- Title(参考訳): 実時間電位を有するスパイク駆動型ビデオ変換器を用いた手術シーンのセグメンテーション
- Authors: Shihao Zou, Jingjing Li, Wei Ji, Jincai Huang, Kai Wang, Guo Dan, Weixin Si, Yi Pan,
- Abstract要約: 手術シーンセグメンテーションに適した最初のスパイク駆動ビデオトランスフォーマーフレームワークである textitSpikeSurgSeg を提案する。
SpikeSurgSegは、SOTA ANNベースのモデルに匹敵するほとんどのmIoUを実現し、推論遅延を少なくとも8倍に削減する。
- 参考スコア(独自算出の注目度): 26.958261975749974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern surgical systems increasingly rely on intelligent scene understanding to provide timely situational awareness for enhanced intra-operative safety. Within this pipeline, surgical scene segmentation plays a central role in accurately perceiving operative events. Although recent deep learning models, particularly large-scale foundation models, achieve remarkable segmentation accuracy, their substantial computational demands and power consumption hinder real-time deployment in resource-constrained surgical environments. To address this limitation, we explore the emerging SNN as a promising paradigm for highly efficient surgical intelligence. However, their performance is still constrained by the scarcity of labeled surgical data and the inherently sparse nature of surgical video representations. To this end, we propose \textit{SpikeSurgSeg}, the first spike-driven video Transformer framework tailored for surgical scene segmentation with real-time potential on non-GPU platforms. To address the limited availability of surgical annotations, we introduce a surgical-scene masked autoencoding pretraining strategy for SNNs that enables robust spatiotemporal representation learning via layer-wise tube masking. Building on this pretrained backbone, we further adopt a lightweight spike-driven segmentation head that produces temporally consistent predictions while preserving the low-latency characteristics of SNNs. Extensive experiments on EndoVis18 and our in-house SurgBleed dataset demonstrate that SpikeSurgSeg achieves mIoU comparable to SOTA ANN-based models while reducing inference latency by at least $8\times$. Notably, it delivers over $20\times$ acceleration relative to most foundation-model baselines, underscoring its potential for time-critical surgical scene segmentation.
- Abstract(参考訳): 近代の外科システムは、手術中の安全性を高めるための時間的状況認識を提供するために、インテリジェントなシーン理解にますます依存している。
このパイプライン内では、手術シーンのセグメンテーションが手術イベントを正確に知覚する中心的な役割を担っている。
近年のディープラーニングモデル、特に大規模基盤モデルでは、セグメンテーションの精度は著しく向上しているが、その相当な計算要求と消費電力は、リソース制約された手術環境におけるリアルタイムな展開を妨げる。
この制限に対処するため、我々はSNNを高効率な手術知能のための有望なパラダイムとして探求する。
しかし, その性能は, ラベル付き外科的データの不足や, 外科的映像表現の特異な性質に制約されている。
この目的のために,非GPUプラットフォーム上でのリアルタイムな潜在能力を備えた手術シーンセグメンテーションに適した,最初のスパイク駆動ビデオトランスフォーマフレームワークである‘textit{SpikeSurgSeg} を提案する。
外科的アノテーションの可用性の限界に対処するため,SNNに対する手術現場のマスク付き自己エンコーディング事前学習戦略を導入し,階層型チューブマスキングによる堅牢な時空間表現学習を実現する。
この事前訓練されたバックボーン上に構築された軽量スパイク駆動セグメンテーションヘッドは,SNNの低遅延特性を保ちながら,時間的に一貫した予測を生成する。
EndoVis18と私たちの社内SurgBleedデータセットに関する大規模な実験は、SpikeSurgSegがSOTA ANNベースのモデルに匹敵するmIoUを実現し、推論遅延を少なくとも8\times$に削減していることを示している。
特に、ほとんどのファンデーションモデルベースラインと比較して20ドル以上のアクセラレーションを提供しており、時間的に重要な手術シーンのセグメンテーションの可能性を強調している。
関連論文リスト
- Token Merging via Spatiotemporal Information Mining for Surgical Video Understanding [32.4892900455388]
本稿では,画像理解トークン統合法(STIM-TM)を提案する。
STIM-TMは、時間的および空間的次元に沿ってトークンの冗長性を独立に減少させる分離戦略を導入する。
STIM-TMは、トレーニングなしの方法で動作し、65ドル以上のGFLOPを削減し、総合的な手術ビデオタスク間の競争精度を維持しながら、かなりの効率を達成する。
論文 参考訳(メタデータ) (2025-09-28T06:24:57Z) - Future Slot Prediction for Unsupervised Object Discovery in Surgical Video [10.984331138780682]
オブジェクト中心のスロットアテンションは、構造化された解釈可能なオブジェクト中心の表現を教師なしで学習するための新たなパラダイムである。
適応スロット数による現在のアプローチは,画像上では良好に機能するが,手術ビデオ上でのパフォーマンスは低い。
本稿では、時間的推論と最適な将来スロット予測の両方のために訓練された動的時間的スロットトランス (DTST) モジュールを提案する。
論文 参考訳(メタデータ) (2025-07-02T16:52:16Z) - Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。
我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。
超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - Efficient Deformable Tissue Reconstruction via Orthogonal Neural Plane [58.871015937204255]
変形性組織を再建するための高速直交平面(Fast Orthogonal Plane)を導入する。
我々は外科手術を4Dボリュームとして概念化し、それらをニューラルネットワークからなる静的および動的フィールドに分解する。
この分解により4次元空間が増加し、メモリ使用量が減少し、最適化が高速化される。
論文 参考訳(メタデータ) (2023-12-23T13:27:50Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - Temporally Constrained Neural Networks (TCNN): A framework for
semi-supervised video semantic segmentation [5.0754434714665715]
本稿では,手術ビデオのセマンティックセグメンテーションに使用される半教師付きフレームワークTCNNを紹介する。
本研究では,オートエンコーダネットワークを用いて,空間的および時間的監視信号の両方を効率的に提供できることを示す。
予測マスクの低次元表現を有効活用して,スパースラベル付き両方のデータセットに一貫した改善を実現することを実証した。
論文 参考訳(メタデータ) (2021-12-27T18:06:12Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - SurgeonAssist-Net: Towards Context-Aware Head-Mounted Display-Based
Augmented Reality for Surgical Guidance [18.060445966264727]
SurgeonAssist-Netは、アクション・アンド・ワークフロー駆動の仮想アシストを、市販の光学シースルーヘッドマウントディスプレイ(OST-HMD)に利用できるようにするフレームワークである。
本実装は,タスクの自動認識のための予測精度において,最先端の手法と競合する。
これはMicrosoft HoloLens 2 OST-HMD上でほぼリアルタイムで動作することができる。
論文 参考訳(メタデータ) (2021-07-13T21:12:34Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。