論文の概要: TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2307.09997v5
- Date: Tue, 12 Nov 2024 12:56:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:17:09.494750
- Title: TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition
- Title(参考訳): TUNeS:ビデオによる外科的位相認識のための自己注意型一時的U-Net
- Authors: Isabel Funke, Dominik Rivoir, Stefanie Krell, Stefanie Speidel,
- Abstract要約: 畳み込み型U-Net構造のコアに自己アテンションを組み込んだ,効率的かつシンプルな時間モデルTUNeSを提案する。
実験では, ほぼすべての時間モデルが, より長い時間的文脈で訓練された特徴抽出器上でより優れた性能を示した。
- 参考スコア(独自算出の注目度): 1.5237530964650965
- License:
- Abstract: To enable context-aware computer assistance in the operating room of the future, cognitive systems need to understand automatically which surgical phase is being performed by the medical team. The primary source of information for surgical phase recognition is typically video, which presents two challenges: extracting meaningful features from the video stream and effectively modeling temporal information in the sequence of visual features. For temporal modeling, attention mechanisms have gained popularity due to their ability to capture long-range dependencies. In this paper, we explore design choices for attention in existing temporal models for surgical phase recognition and propose a novel approach that uses attention more effectively and does not require hand-crafted constraints: TUNeS, an efficient and simple temporal model that incorporates self-attention at the core of a convolutional U-Net structure. In addition, we propose to train the feature extractor, a standard CNN, together with an LSTM on preferably long video segments, i.e., with long temporal context. In our experiments, almost all temporal models performed better on top of feature extractors that were trained with longer temporal context. On these contextualized features, TUNeS achieves state-of-the-art results on the Cholec80 dataset. This study offers new insights on how to use attention mechanisms to build accurate and efficient temporal models for surgical phase recognition. Implementing automatic surgical phase recognition is essential to automate the analysis and optimization of surgical workflows and to enable context-aware computer assistance during surgery, thus ultimately improving patient care.
- Abstract(参考訳): 未来の手術室における文脈認識型コンピュータ支援を実現するためには,医療チームによる手術段階の自動理解が必要である。
外科的位相認識のための主要な情報源はビデオであり、ビデオストリームから有意義な特徴を抽出し、視覚的特徴列の時間的情報を効果的にモデル化する、という2つの課題を提示する。
時間的モデリングでは、長距離依存関係をキャプチャできるため、注意機構が人気を集めている。
本稿では,既存の術期認識のための時間モデルに注意を向ける設計選択について検討し,より効果的に注意を利用でき,手作り制約を必要としない新しいアプローチを提案する。
さらに,標準CNNである特徴抽出器と,所望の長時間ビデオセグメント上でのLSTMとを時間的コンテキストでトレーニングすることを提案する。
実験では, ほぼすべての時間モデルにおいて, より長い時間的文脈で訓練した特徴抽出器上で, より優れた時間的モデルが得られた。
これらのコンテキスト化機能では、TUNeSはColec80データセット上で最先端の結果を達成する。
本研究は、注意機構を用いて、外科的位相認識のための正確かつ効率的な時間モデルを構築する方法について、新たな知見を提供する。
外科的ワークフローの分析と最適化を自動化し、手術中のコンテキスト認識型コンピュータ支援を可能にするためには、自動的な外科的位相認識を実装することが不可欠である。
関連論文リスト
- Surgical Temporal Action-aware Network with Sequence Regularization for
Phase Recognition [28.52533700429284]
本稿では,STAR-Netと命名されたシークエンス正規化を施した手術時行動認識ネットワークを提案する。
MS-STAモジュールは、視覚的特徴と2Dネットワークを犠牲にして、手術行動の空間的および時間的知識を統合する。
我々のSTAR-Net with MS-STA and DSR can exploit of visual features of surgery action with effective regularization, which to the excellent performance of surgery phase recognition。
論文 参考訳(メタデータ) (2023-11-21T13:43:16Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Symmetric Dilated Convolution for Surgical Gesture Recognition [10.699258974625073]
外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。
本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。
JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-07-13T13:34:48Z) - Automatic Operating Room Surgical Activity Recognition for
Robot-Assisted Surgery [1.1033115844630357]
ロボット支援手術における自動手術活動認識について検討した。
400本のフル長マルチパースペクティブビデオを含む,最初の大規模データセットを収集する。
ビデオに最も認識され,臨床的に関係のある10のクラスで注釈を付ける。
論文 参考訳(メタデータ) (2020-06-29T16:30:31Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。