論文の概要: SurgicalMamba: Dual-Path SSD with State Regramming for Online Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2605.14889v2
- Date: Mon, 18 May 2026 02:24:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.007404
- Title: SurgicalMamba: Dual-Path SSD with State Regramming for Online Surgical Phase Recognition
- Title(参考訳): 手術用Mamba:オンライン手術相認識のための状態リグラム付きデュアルパスSSD
- Authors: Sukju Oh, Sukkyu Sun,
- Abstract要約: オンライン外科的位相認識(SPR)は、コンテキスト対応の手術室システムを支える。
我々は,Mamba2の構造的状態空間双対性(SSD)に基づいて構築された因果SPRモデルであるO(d)について述べる。
7つの公開SPRベンチマークで、OssageMambaは、厳格なオンライン評価の下で最先端の精度とフェーズレベルのJaccardに達した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online surgical phase recognition (SPR) underpins context-aware operating-room systems and requires committing to a prediction at every frame from past context alone. Surgical video poses three demands that natural-video recognizers do not jointly address: procedures span tens of thousands of frames, time flows non-uniformly as long routine stretches are punctuated by brief phase-defining transitions, and the visual domain is narrow so backbone features are strongly correlated across channels. Existing recognizers either let per-frame cost grow with elapsed length, or hold cost bounded but advance state at a uniform rate with channel-independent dynamics, leaving the latter two demands unaddressed. We present SurgicalMamba, a causal SPR model built on Mamba2's structured state-space duality (SSD) that holds per-frame cost at O(d). It introduces three SSD-compatible components, each targeting one demand: a dual-path SSD block that separates long- and short-term regimes at the level of recurrent state; intensity-modulated stepping, a continuous-time time-warp that adapts the slow path's effective rate to phase-relevant information; and state regramming, a per-chunk Cayley rotation that opens cross-channel mixing in the otherwise axis-aligned SSM recurrence. The learned rotation planes inherit a phase-aligned structure without any direct supervision, offering an interpretable internal signature of surgical workflow. Across seven public SPR benchmarks, SurgicalMamba reaches state-of-the-art accuracy and phase-level Jaccard under strict online evaluation: 94.6%/82.7% on Cholec80 (+0.7 pp/+2.2 pp over the strongest prior) and 89.5%/68.9% on AutoLaparo (+1.7 pp/+2.0 pp), at 238.74 fps on a single GPU. Ablations isolate the contribution of each component. The code is publicly available at https://github.com/sukjuoh/Surgical-Mamba.
- Abstract(参考訳): オンライン外科的位相認識(SPR)は、コンテキスト対応の手術室システムを支えるものであり、過去のコンテキストのみからの全てのフレームでの予測にコミットする必要がある。
プロシージャは数万のフレームにまたがり、長いルーチンストレッチが短い位相定義遷移によって句読されるため、時間の流れは不均一であり、視覚領域は狭く、バックボーンの特徴はチャネル間で強く相関している。
既存の認識器は、フレーム単位のコストを経過した長さで増加させるか、あるいは、チャンネル非依存のダイナミックスと均一な速度でバウンダリを保ち、後者の2つの要求は未適応のままである。
我々は,Mamba2の構造的状態空間双対性(SSD)に基づいて構築された因果SPRモデルであるO(d)について述べる。
SSD互換コンポーネントは3つあり、それぞれ1つの要求をターゲットにしている: 長期状態と短期状態の分離を行うデュアルパスSSDブロック、強度変調されたステップ、スローパスの有効レートを位相関連情報に適応する連続時間のタイムワープ、チャンク毎のケイリー回転で軸方向のSSMリカレンスを開封するステートリグラム。
学習された回転面は、直接の監督なしに位相整列構造を継承し、外科的ワークフローの解釈可能な内部シグネチャを提供する。
7つの公開SPRベンチマークで、オペレーショナルマンバは厳格なオンライン評価のもと、94.6%/82.7%のCholec80 (+0.7 pp/+2.2 pp)、89.5%/68.9%のAutoLaparo (+1.7 pp/+2.0 pp)、そして238.74 fpsの238.74 fpsに達した。
アブレーションは各コンポーネントのコントリビューションを分離する。
コードはhttps://github.com/sukjuoh/Surgical-Mamba.comで公開されている。
関連論文リスト
- Not All Tokens Need 40 Steps: Heterogeneous Step Allocation in Diffusion Transformers for Efficient Video Generation [53.176242285107485]
速度のダイナミクスに基づいて異なる冗長トークンに様々なステップ予算を割り当てる動き自由推論を導入する。
結果として生じるシーケンス長ミスマッチを解決するため、HSAはKV-cache機構を導入し、アクティブトークンが全シーケンスに参加することができる。
We evaluate HSA on the Wan-2 and LTX-2 models for both text-to-video (T2V) and image-to-video (2V) generation。
論文 参考訳(メタデータ) (2026-05-07T19:49:47Z) - Holistic Surgical Phase Recognition with Hierarchical Input Dependent State Space Models [56.2236083600999]
手術映像解析のための階層型入力依存状態空間モデルを提案する。
本フレームワークは,時間的一貫した視覚特徴抽出器を内蔵し,状態空間モデルヘッドを視覚特徴抽出器に付加し,時間的情報を伝達する。
実験により,本手法は最先端の手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2025-06-26T14:43:57Z) - MoSFormer: Augmenting Temporal Context with Memory of Surgery for Surgical Phase Recognition [6.913838841605972]
メモリ・オブ・サーチ (Memory of Surgery, MOS) は、意味論的解釈可能な長期手術の歴史と短期的印象の両方を取り入れることで、時間的モデリングを強化する枠組みである。
MoSFormerは、複数のベンチマークで最先端のパフォーマンスをデモする。
論文 参考訳(メタデータ) (2025-03-02T02:26:21Z) - SurgPLAN: Surgical Phase Localization Network for Phase Recognition [14.857715124466594]
そこで我々は,より正確で安定した手術相認識を支援するために,SurgPLANと呼ばれる手術相ロカライズネットワークを提案する。
まず、フレームサンプリング率の異なる2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚バックボーンとして、Praamid SlowFast (PSF) アーキテクチャを考案した。
論文 参考訳(メタデータ) (2023-11-16T15:39:01Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。