論文の概要: LoViT: Long Video Transformer for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2305.08989v3
- Date: Wed, 14 Jun 2023 16:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 00:48:30.562679
- Title: LoViT: Long Video Transformer for Surgical Phase Recognition
- Title(参考訳): LoViT:手術用位相認識用長ビデオトランス
- Authors: Yang Liu, Maxence Boels, Luis C. Garcia-Peraza-Herrera, Tom
Vercauteren, Prokar Dasgupta, Alejandro Granados and Sebastien Ourselin
- Abstract要約: 短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 59.06812739441785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online surgical phase recognition plays a significant role towards building
contextual tools that could quantify performance and oversee the execution of
surgical workflows. Current approaches are limited since they train spatial
feature extractors using frame-level supervision that could lead to incorrect
predictions due to similar frames appearing at different phases, and poorly
fuse local and global features due to computational constraints which can
affect the analysis of long videos commonly encountered in surgical
interventions. In this paper, we present a two-stage method, called Long Video
Transformer (LoViT) for fusing short- and long-term temporal information that
combines a temporally-rich spatial feature extractor and a multi-scale temporal
aggregator consisting of two cascaded L-Trans modules based on self-attention,
followed by a G-Informer module based on ProbSparse self-attention for
processing global temporal information. The multi-scale temporal head then
combines local and global features and classifies surgical phases using phase
transition-aware supervision. Our approach outperforms state-of-the-art methods
on the Cholec80 and AutoLaparo datasets consistently. Compared to Trans-SVNet,
LoViT achieves a 2.4 pp (percentage point) improvement in video-level accuracy
on Cholec80 and a 3.1 pp improvement on AutoLaparo. Moreover, it achieves a 5.3
pp improvement in phase-level Jaccard on AutoLaparo and a 1.55 pp improvement
on Cholec80. Our results demonstrate the effectiveness of our approach in
achieving state-of-the-art performance of surgical phase recognition on two
datasets of different surgical procedures and temporal sequencing
characteristics whilst introducing mechanisms that cope with long videos.
- Abstract(参考訳): オンラインの手術相認識は、パフォーマンスを定量化し、手術ワークフローの実行を監督するコンテキストツールを構築する上で重要な役割を果たす。
現在のアプローチは、異なるフェーズに出現する類似のフレームによる誤った予測につながるフレームレベルの監督を使って空間的特徴抽出器を訓練し、外科手術でよく見られるロングビデオの分析に影響を及ぼす計算上の制約によって局所的特徴とグローバルな特徴をうまく融合しないため、制限されている。
本稿では,Long Video Transformer (LoViT) と呼ばれる,時間的に豊富な空間的特徴抽出器と,自己意図に基づく2つのL-Transモジュールからなる大規模時間的アグリゲータを組み合わせた,短時間・長期の時間的情報を融合する2段階の手法を提案する。
マルチスケールのテンポラリヘッドは、局所的および大域的な特徴を結合し、位相遷移認識による手術段階を分類する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
trans-svnetと比較すると、lovitはcholec80におけるビデオレベルの精度が2.4pp向上し、autolaparoでは3.1pp向上した。
さらに、オートラパロの位相レベルjaccardの5.3pp改善とcholec80の1.55pp改善を達成している。
以上の結果から,本手法は,異なる手術手順と時間的シークエンシング特性の2つのデータセット上での外科的位相認識の最先端化に有効であり,また,ロングビデオ対応のメカニズムも導入している。
関連論文リスト
- MuST: Multi-Scale Transformers for Surgical Phase Recognition [40.047145788604716]
手術ビデオにおける位相認識は,コンピュータ支援手術システムの強化に不可欠である。
既存の手法は、動的外科的位相を特定するためにビデオ解析のために固定時間窓に頼っていることが多い。
手術相認識のためのマルチスケールトランスフォーマー(MuST)を提案する。
論文 参考訳(メタデータ) (2024-07-24T15:38:20Z) - Friends Across Time: Multi-Scale Action Segmentation Transformer for
Surgical Phase Recognition [2.10407185597278]
オフライン手術相認識のためのMS-AST(Multi-Scale Action Causal Transformer)とオンライン手術相認識のためのMS-ASCT(Multi-Scale Action Causal Transformer)を提案する。
オンラインおよびオフラインの外科的位相認識のためのColec80データセットでは,95.26%,96.15%の精度が得られる。
論文 参考訳(メタデータ) (2024-01-22T01:34:03Z) - SurgPLAN: Surgical Phase Localization Network for Phase Recognition [14.857715124466594]
そこで我々は,より正確で安定した手術相認識を支援するために,SurgPLANと呼ばれる手術相ロカライズネットワークを提案する。
まず、フレームサンプリング率の異なる2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚バックボーンとして、Praamid SlowFast (PSF) アーキテクチャを考案した。
論文 参考訳(メタデータ) (2023-11-16T15:39:01Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。