論文の概要: TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical
Phase Recognition
- arxiv url: http://arxiv.org/abs/2307.09997v1
- Date: Wed, 19 Jul 2023 14:10:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:47:18.052333
- Title: TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical
Phase Recognition
- Title(参考訳): TUNeS:ビデオによる外科的位相認識のための自己注意型一時的U-Net
- Authors: Isabel Funke, Dominik Rivoir, Stefanie Krell and Stefanie Speidel
- Abstract要約: 本稿では,U-Netのような構造の粗い段階で自己注意を組み込んだ,効率的かつシンプルな時間モデルTUNeSを紹介する。
実験では, 時間的文脈の長い特徴抽出器上で, 時間的モデルが良好に動作した。
- 参考スコア(独自算出の注目度): 0.036704226968275244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To enable context-aware computer assistance in the operating room of the
future, cognitive systems need to understand automatically which surgical phase
is being performed by the medical team. The primary source of information for
surgical phase recognition is typically video, which presents two challenges:
extracting meaningful features from the video stream and effectively modeling
temporal information in the sequence of visual features. For temporal modeling,
attention mechanisms have gained popularity due to their ability to capture
long-range dependencies. In this paper, we explore design choices for attention
in existing temporal models for surgical phase recognition and propose a novel
approach that does not resort to local attention or regularization of attention
weights: TUNeS is an efficient and simple temporal model that incorporates
self-attention at the coarsest stage of a U-Net-like structure. In addition, we
propose to train the feature extractor, a standard CNN, together with an LSTM
on preferably long video segments, i.e., with long temporal context. In our
experiments, all temporal models performed better on top of feature extractors
that were trained with longer temporal context. On top of these contextualized
features, TUNeS achieves state-of-the-art results on Cholec80.
- Abstract(参考訳): 未来の手術室における文脈認識型コンピュータ支援を実現するためには,医療チームによる手術段階の自動理解が必要である。
外科的位相認識のための主要な情報源はビデオであり、ビデオストリームから有意義な特徴を抽出し、視覚的特徴列の時間情報を効果的にモデル化する。
時間的モデリングでは、長距離依存関係をキャプチャできるため、注意機構が人気を集めている。
本稿では,既存の手術相認識のための時間モデルにおける注意設計の選択肢を考察し,局所的注意や注意重みの正規化に頼らない新しいアプローチを提案する。
さらに,標準CNNである特徴抽出器と,所望の長時間ビデオセグメント上でのLSTMとを時間的コンテキストでトレーニングすることを提案する。
実験では,より長い時間的文脈で訓練された特徴抽出器上で,すべての時間モデルの性能が向上した。
これらのコンテキスト化された機能に加えて、TUNeSはCholec80の最先端の結果を達成する。
関連論文リスト
- On the Relevance of Temporal Features for Medical Ultrasound Video
Recognition [0.0]
一般的な超音波タスクにおいて,より優れたサンプリング効率を実現するために,新しいマルチヘッドアテンションアーキテクチャを提案する。
アーキテクチャの性能を2つの設定で効率的な3次元CNNビデオ認識モデルと比較する。
以上の結果から,低データ環境下での一般的な超音波作業において,表現的時間非依存モデルの方が最先端の映像認識モデルよりも有効である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-16T14:35:29Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Spatio-Temporal Analysis of Facial Actions using Lifecycle-Aware Capsule
Networks [12.552355581481994]
AULA-Capsは、シーケンス内の関連する時間的セグメントに注目して、連続したフレーム間で学習する。
学習した特徴カプセルは、AUライフサイクルに応じて、空間的または時間的情報に選択的に集中するようにルーティングされる。
提案モデルはBP4DおよびGFTベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-17T18:36:38Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。