論文の概要: TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical
Phase Recognition
- arxiv url: http://arxiv.org/abs/2307.09997v2
- Date: Fri, 19 Jan 2024 19:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:14:44.043765
- Title: TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical
Phase Recognition
- Title(参考訳): TUNeS:ビデオによる外科的位相認識のための自己注意型一時的U-Net
- Authors: Isabel Funke, Dominik Rivoir, Stefanie Krell and Stefanie Speidel
- Abstract要約: 畳み込み型U-Net構造のコアに自己アテンションを組み込んだ,効率的かつシンプルな時間モデルTUNeSを提案する。
TuNeSはColec80データセットで最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 1.6645907922120298
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: To enable context-aware computer assistance in the operating room of the
future, cognitive systems need to understand automatically which surgical phase
is being performed by the medical team. The primary source of information for
surgical phase recognition is typically video, which presents two challenges:
extracting meaningful features from the video stream and effectively modeling
temporal information in the sequence of visual features. For temporal modeling,
attention mechanisms have gained popularity due to their ability to capture
long-range dependencies. In this paper, we explore design choices for attention
in existing temporal models for surgical phase recognition and propose a novel
approach that uses attention more effectively: TUNeS, an efficient and simple
temporal model that incorporates self-attention at the core of a convolutional
U-Net structure. In addition, we propose to train the feature extractor, a
standard CNN, together with an LSTM on preferably long video segments, i.e.,
with long temporal context. In our experiments, all temporal models performed
better on top of feature extractors that were trained with longer temporal
context. On these contextualized features, TUNeS achieves state-of-the-art
results on the Cholec80 dataset.
- Abstract(参考訳): 未来の手術室における文脈認識型コンピュータ支援を実現するためには,医療チームによる手術段階の自動理解が必要である。
外科的位相認識のための主要な情報源はビデオであり、ビデオストリームから有意義な特徴を抽出し、視覚的特徴列の時間情報を効果的にモデル化する。
時間的モデリングでは、長距離依存関係をキャプチャできるため、注意機構が人気を集めている。
本稿では,既存の位相認識のための時間モデルに注目する設計選択について検討し,より効果的に注目する新しいアプローチを提案する: TUNeS, 畳み込み型U-Net構造のコアに自己注意を組み込んだ,効率的でシンプルな時間モデル。
さらに,標準CNNである特徴抽出器と,所望の長時間ビデオセグメント上でのLSTMとを時間的コンテキストでトレーニングすることを提案する。
実験では,より長い時間的文脈で訓練された特徴抽出器上で,すべての時間モデルの性能が向上した。
これらのコンテキスト化機能では、TUNeSはColec80データセット上で最先端の結果を達成する。
関連論文リスト
- On the Relevance of Temporal Features for Medical Ultrasound Video
Recognition [0.0]
一般的な超音波タスクにおいて,より優れたサンプリング効率を実現するために,新しいマルチヘッドアテンションアーキテクチャを提案する。
アーキテクチャの性能を2つの設定で効率的な3次元CNNビデオ認識モデルと比較する。
以上の結果から,低データ環境下での一般的な超音波作業において,表現的時間非依存モデルの方が最先端の映像認識モデルよりも有効である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-16T14:35:29Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Spatio-Temporal Analysis of Facial Actions using Lifecycle-Aware Capsule
Networks [12.552355581481994]
AULA-Capsは、シーケンス内の関連する時間的セグメントに注目して、連続したフレーム間で学習する。
学習した特徴カプセルは、AUライフサイクルに応じて、空間的または時間的情報に選択的に集中するようにルーティングされる。
提案モデルはBP4DおよびGFTベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-17T18:36:38Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。