論文の概要: SurgPLAN: Surgical Phase Localization Network for Phase Recognition
- arxiv url: http://arxiv.org/abs/2311.09965v1
- Date: Thu, 16 Nov 2023 15:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 13:38:12.369342
- Title: SurgPLAN: Surgical Phase Localization Network for Phase Recognition
- Title(参考訳): SurgPLAN: 位相認識のための外科的位相局在ネットワーク
- Authors: Xingjian Luo, You Pang, Zhen Chen, Jinlin Wu, Zongmin Zhang, Zhen Lei,
Hongbin Liu
- Abstract要約: そこで我々は,より正確で安定した手術相認識を支援するために,SurgPLANと呼ばれる手術相ロカライズネットワークを提案する。
まず、フレームサンプリング率の異なる2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚バックボーンとして、Praamid SlowFast (PSF) アーキテクチャを考案した。
- 参考スコア(独自算出の注目度): 14.857715124466594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical phase recognition is crucial to providing surgery understanding in
smart operating rooms. Despite great progress in automatic surgical phase
recognition, most existing methods are still restricted by two problems. First,
these methods cannot capture discriminative visual features for each frame and
motion information with simple 2D networks. Second, the frame-by-frame
recognition paradigm degrades the performance due to unstable predictions
within each phase, termed as phase shaking. To address these two challenges, we
propose a Surgical Phase LocAlization Network, named SurgPLAN, to facilitate a
more accurate and stable surgical phase recognition with the principle of
temporal detection. Specifically, we first devise a Pyramid SlowFast (PSF)
architecture to serve as the visual backbone to capture multi-scale spatial and
temporal features by two branches with different frame sampling rates.
Moreover, we propose a Temporal Phase Localization (TPL) module to generate the
phase prediction based on temporal region proposals, which ensures accurate and
consistent predictions within each surgical phase. Extensive experiments
confirm the significant advantages of our SurgPLAN over frame-by-frame
approaches in terms of both accuracy and stability.
- Abstract(参考訳): 手術の位相認識は、スマート手術室での手術理解に不可欠である。
自動的な手術相認識の進歩にもかかわらず、既存の手法のほとんどは2つの問題によって制限されている。
第1に、これらの方法は、単純な2dネットワークで各フレームと動き情報に対する識別的視覚特徴を捉えることができない。
第二に、フレーム単位の認識パラダイムは、位相揺らぎと呼ばれる各位相内で不安定な予測のために性能を劣化させる。
これら2つの課題に対処するため,時間的検出の原理を用いて,より正確かつ安定した外科的位相認識を促進するために,SurgPLANと呼ばれる手術段階ロカライズネットワークを提案する。
具体的には、まずPraamid SlowFast (PSF) アーキテクチャを設計し、異なるフレームサンプリングレートの2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚的バックボーンとして機能する。
さらに,時間領域の提案に基づいて位相予測を生成する時間位相定位(tpl)モジュールを提案する。
広範囲な実験により、精度と安定性の両面で、フレーム・バイ・フレームアプローチに対するサグプランの重要な利点を確認した。
関連論文リスト
- Friends Across Time: Multi-Scale Action Segmentation Transformer for
Surgical Phase Recognition [2.10407185597278]
オフライン手術相認識のためのMS-AST(Multi-Scale Action Causal Transformer)とオンライン手術相認識のためのMS-ASCT(Multi-Scale Action Causal Transformer)を提案する。
オンラインおよびオフラインの外科的位相認識のためのColec80データセットでは,95.26%,96.15%の精度が得られる。
論文 参考訳(メタデータ) (2024-01-22T01:34:03Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z) - TeCNO: Surgical Phase Recognition with Multi-Stage Temporal
Convolutional Networks [43.95869213955351]
外科的位相認識のための階層的予測補正を行う多段階時間畳み込みネットワーク(MS-TCN)を提案する。
本手法は腹腔鏡下胆嚢摘出術ビデオの2つのデータセットに対して,追加の外科的ツール情報を用いずに徹底的に評価した。
論文 参考訳(メタデータ) (2020-03-24T10:12:30Z) - Detecting Pancreatic Ductal Adenocarcinoma in Multi-phase CT Scans via
Alignment Ensemble [77.5625174267105]
膵管腺癌(PDAC)は最も致命的ながんの1つである。
複数のフェーズは単一のフェーズよりも多くの情報を提供するが、それらは整列せず、テクスチャにおいて不均一である。
PDAC検出性能を高めるために,これらすべてのアライメントのアンサンブルを提案する。
論文 参考訳(メタデータ) (2020-03-18T19:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。