論文の概要: Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer
- arxiv url: http://arxiv.org/abs/2103.09712v1
- Date: Wed, 17 Mar 2021 15:12:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 13:09:59.861678
- Title: Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer
- Title(参考訳): Trans-SVNet:ハイブリッド埋め込みアグリゲーション変換器による手術映像からの正確な位相認識
- Authors: Xiaojie Gao, Yueming Jin, Yonghao Long, Qi Dou, Pheng-Ann Heng
- Abstract要約: 本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
- 参考スコア(独自算出の注目度): 57.18185972461453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time surgical phase recognition is a fundamental task in modern
operating rooms. Previous works tackle this task relying on architectures
arranged in spatio-temporal order, however, the supportive benefits of
intermediate spatial features are not considered. In this paper, we introduce,
for the first time in surgical workflow analysis, Transformer to reconsider the
ignored complementary effects of spatial and temporal features for accurate
surgical phase recognition. Our hybrid embedding aggregation Transformer fuses
cleverly designed spatial and temporal embeddings by allowing for active
queries based on spatial information from temporal embedding sequences. More
importantly, our framework is lightweight and processes the hybrid embeddings
in parallel to achieve a high inference speed. Our method is thoroughly
validated on two large surgical video datasets, i.e., Cholec80 and M2CAI16
Challenge datasets, and significantly outperforms the state-of-the-art
approaches at a processing speed of 91 fps.
- Abstract(参考訳): 現代の手術室では, 実時間手術位相認識が基本課題である。
従来の課題は時空間的に配置されたアーキテクチャに頼っていたが、中間空間的特徴の支持的利点は考慮されていない。
本稿では,外科的ワークフロー解析において初めて,正確な手術相認識のための時間的特徴と時間的特徴の無視された補完的効果を再考するトランスフォーマを提案する。
時間的埋め込みシーケンスからの空間情報に基づくアクティブクエリを可能にすることにより,空間的および時間的埋め込みを巧みに設計した。
さらに重要なことは、私たちのフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
提案手法はColec80とM2CAI16 Challengeの2つの大規模な手術ビデオデータセットに対して徹底的に検証され,91fpsの処理速度で最先端のアプローチを著しく上回っている。
関連論文リスト
- Friends Across Time: Multi-Scale Action Segmentation Transformer for
Surgical Phase Recognition [2.10407185597278]
オフライン手術相認識のためのMS-AST(Multi-Scale Action Causal Transformer)とオンライン手術相認識のためのMS-ASCT(Multi-Scale Action Causal Transformer)を提案する。
オンラインおよびオフラインの外科的位相認識のためのColec80データセットでは,95.26%,96.15%の精度が得られる。
論文 参考訳(メタデータ) (2024-01-22T01:34:03Z) - Efficient Deformable Tissue Reconstruction via Orthogonal Neural Plane [58.871015937204255]
変形性組織を再建するための高速直交平面(Fast Orthogonal Plane)を導入する。
我々は外科手術を4Dボリュームとして概念化し、それらをニューラルネットワークからなる静的および動的フィールドに分解する。
この分解により4次元空間が増加し、メモリ使用量が減少し、最適化が高速化される。
論文 参考訳(メタデータ) (2023-12-23T13:27:50Z) - SurgPLAN: Surgical Phase Localization Network for Phase Recognition [14.857715124466594]
そこで我々は,より正確で安定した手術相認識を支援するために,SurgPLANと呼ばれる手術相ロカライズネットワークを提案する。
まず、フレームサンプリング率の異なる2つのブランチで複数スケールの空間的特徴と時間的特徴をキャプチャする視覚バックボーンとして、Praamid SlowFast (PSF) アーキテクチャを考案した。
論文 参考訳(メタデータ) (2023-11-16T15:39:01Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - ARST: Auto-Regressive Surgical Transformer for Phase Recognition from
Laparoscopic Videos [2.973286445527318]
自然言語処理における逐次データモデリングのために提案されたTransformerは,外科的位相認識に成功している。
本研究では, 腹腔鏡下画像からのオンライン手術位相認識のために, ARSTと呼ばれる自動回帰手術変換器が最初に提案されている。
論文 参考訳(メタデータ) (2022-09-02T16:05:39Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。