論文の概要: SR-Mamba: Effective Surgical Phase Recognition with State Space Model
- arxiv url: http://arxiv.org/abs/2407.08333v1
- Date: Thu, 11 Jul 2024 09:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 18:09:27.565872
- Title: SR-Mamba: Effective Surgical Phase Recognition with State Space Model
- Title(参考訳): SR-Mamba:状態空間モデルを用いた効果的な外科的位相認識
- Authors: Rui Cao, Jiangliu Wang, Yun-Hui Liu,
- Abstract要約: SR-マンバ(SR-Mamba)は、外科的位相認識の課題を満たすために特別に設計された、新しい無注意モデルである。
SR-Mambaでは、双方向のMambaデコーダを用いて、時間的コンテキストをオーバーロングシーケンスで効果的にモデル化する。
SR-Mambaは、Colec80とCATARACTS Challengeデータセットで最先端のパフォーマンスを示すことによって、外科的ビデオ分析の新たなベンチマークを確立する。
- 参考スコア(独自算出の注目度): 42.766718651973726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical phase recognition is crucial for enhancing the efficiency and safety of computer-assisted interventions. One of the fundamental challenges involves modeling the long-distance temporal relationships present in surgical videos. Inspired by the recent success of Mamba, a state space model with linear scalability in sequence length, this paper presents SR-Mamba, a novel attention-free model specifically tailored to meet the challenges of surgical phase recognition. In SR-Mamba, we leverage a bidirectional Mamba decoder to effectively model the temporal context in overlong sequences. Moreover, the efficient optimization of the proposed Mamba decoder facilitates single-step neural network training, eliminating the need for separate training steps as in previous works. This single-step training approach not only simplifies the training process but also ensures higher accuracy, even with a lighter spatial feature extractor. Our SR-Mamba establishes a new benchmark in surgical video analysis by demonstrating state-of-the-art performance on the Cholec80 and CATARACTS Challenge datasets. The code is accessible at https://github.com/rcao-hk/SR-Mamba.
- Abstract(参考訳): 外科的位相認識は、コンピュータによる介入の効率性と安全性を高めるために重要である。
基本的な課題の1つは、手術ビデオに存在する長距離時間関係をモデル化することである。
本論文は, 連続長の線形拡張性を持つ状態空間モデルであるMambaの成功に触発されて, 外科的位相認識の課題に合わせた, 新たな注意のないモデルSR-Mambaを提案する。
SR-Mambaでは、双方向のMambaデコーダを用いて、時間的コンテキストをオーバーロングシーケンスで効果的にモデル化する。
さらに、提案したMambaデコーダの効率的な最適化により、シングルステップのニューラルネットワークトレーニングが容易になり、以前の作業のように個別のトレーニングステップが不要になる。
この単一ステップのトレーニングアプローチは、トレーニングプロセスを単純化するだけでなく、より軽い空間特徴抽出器でも高い精度を確保する。
我々のSR-Mambaは、Colec80およびCATARACTS Challengeデータセットの最先端性能を示すことによって、外科的ビデオ解析の新たなベンチマークを確立した。
コードはhttps://github.com/rcao-hk/SR-Mambaでアクセスできる。
関連論文リスト
- Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation [6.578088710294546]
従来のセグメンテーション手法は、高い解剖学的変動、ぼやけた組織の境界、低い臓器コントラスト、ノイズといった課題に対処するのに苦労する。
MLLA-UNet(Mamba-like Linear Attention UNet)を提案する。
MLLA-UNetは、FLARE22、AMOS CT、ACDCに限らず、24の異なるセグメンテーションタスクを持つ6つの挑戦的なデータセットに対して、平均88.32%の最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-10-31T08:54:23Z) - EM-Net: Efficient Channel and Frequency Learning with Mamba for 3D Medical Image Segmentation [3.6813810514531085]
我々は,EM-Netと呼ばれる新しい3次元医用画像セグメンテーションモデルを紹介し,その成功に触発されて,新しいマンバベースの3次元医用画像セグメンテーションモデルであるEM-Netを紹介した。
提案手法は,SOTAモデルのパラメータサイズをほぼ半分にし,訓練速度を2倍に向上させながら,より高精度なセグメンテーション精度を示すことを示す。
論文 参考訳(メタデータ) (2024-09-26T09:34:33Z) - SPRMamba: Surgical Phase Recognition for Endoscopic Submucosal Dissection with Mamba [4.37495931705689]
本研究では,ESD外科的位相認識のための新しいマンバベースのフレームワークであるSPRMambaを提案する。
本研究では,SPRMambaが既存の最先端手法を超越し,各種の外科的位相認識タスクにおいてより堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2024-09-18T16:26:56Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - HARMamba: Efficient and Lightweight Wearable Sensor Human Activity Recognition Based on Bidirectional Mamba [7.412537185607976]
ウェアラブルセンサーによる人間の活動認識(HAR)は、活動知覚において重要な研究領域である。
HARMambaは、選択的な双方向状態空間モデルとハードウェア対応設計を組み合わせた、革新的な軽量で多用途なHARアーキテクチャである。
HarMambaは現代の最先端フレームワークより優れており、計算とメモリの要求を大幅に削減し、同等またはより良い精度を提供する。
論文 参考訳(メタデータ) (2024-03-29T13:57:46Z) - Rotate to Scan: UNet-like Mamba with Triplet SSM Module for Medical Image Segmentation [8.686237221268584]
本稿では,新しいタイプの画像分割ネットワークとしてTriplet Mamba-UNetを提案する。
本モデルでは,従来のVM-UNetと比較してパラメータの3分の1の削減を実現している。
論文 参考訳(メタデータ) (2024-03-26T13:40:18Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。