論文の概要: SF-TMN: SlowFast Temporal Modeling Network for Surgical Phase
Recognition
- arxiv url: http://arxiv.org/abs/2306.08859v1
- Date: Thu, 15 Jun 2023 05:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:34:10.887292
- Title: SF-TMN: SlowFast Temporal Modeling Network for Surgical Phase
Recognition
- Title(参考訳): sf-tmn:手術位相認識のための高速時間モデルネットワーク
- Authors: Bokai Zhang, Mohammad Hasan Sarhan, Bharti Goel, Svetlana Petculescu,
Amer Ghanem
- Abstract要約: 外科的位相認識のためのSlowFast Temporal Modeling Network (SF-TMN)を提案する。
フレームレベルのフルビデオ時間モデリングとセグメントレベルのフルビデオ時間モデリングを実現する。
ASFormerのバックボーンを持つSF-TMNは、最先端のNot End-to-End(TCN)メソッドよりも精度が2.6%、Jaccardスコアが7.4%向上している。
- 参考スコア(独自算出の注目度): 0.5669790037378094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic surgical phase recognition is one of the key technologies to
support Video-Based Assessment (VBA) systems for surgical education. Utilizing
temporal information is crucial for surgical phase recognition, hence various
recent approaches extract frame-level features to conduct full video temporal
modeling. For better temporal modeling, we propose SlowFast Temporal Modeling
Network (SF-TMN) for surgical phase recognition that can not only achieve
frame-level full video temporal modeling but also achieve segment-level full
video temporal modeling. We employ a feature extraction network, pre-trained on
the target dataset, to extract features from video frames as the training data
for SF-TMN. The Slow Path in SF-TMN utilizes all frame features for frame
temporal modeling. The Fast Path in SF-TMN utilizes segment-level features
summarized from frame features for segment temporal modeling. The proposed
paradigm is flexible regarding the choice of temporal modeling networks. We
explore MS-TCN and ASFormer models as temporal modeling networks and experiment
with multiple combination strategies for Slow and Fast Paths. We evaluate
SF-TMN on Cholec80 surgical phase recognition task and demonstrate that SF-TMN
can achieve state-of-the-art results on all considered metrics. SF-TMN with
ASFormer backbone outperforms the state-of-the-art Not End-to-End(TCN) method
by 2.6% in accuracy and 7.4% in the Jaccard score. We also evaluate SF-TMN on
action segmentation datasets including 50salads, GTEA, and Breakfast, and
achieve state-of-the-art results. The improvement in the results shows that
combining temporal information from both frame level and segment level by
refining outputs with temporal refinement stages is beneficial for the temporal
modeling of surgical phases.
- Abstract(参考訳): 自動手術位相認識は、外科教育のためのビデオベースアセスメント(VBA)システムをサポートする重要な技術の1つである。
経時的情報の利用は外科的位相認識に不可欠であり,近年ではフレームレベルの特徴抽出法が提案されている。
そこで本研究では,フレームレベルフルビデオ時空間モデリングを実現するだけでなく,セグメントレベルフルビデオ時空間モデリングを実現するために,slowfast temporal modeling network (sf-tmn)を提案する。
SF-TMNのトレーニングデータとして,対象データセット上で事前学習した特徴抽出ネットワークを用いて,映像フレームから特徴抽出を行う。
SF-TMNのスローパスはフレーム時間モデリングに全てのフレーム機能を利用する。
SF-TMNのFast Pathは、フレームの特徴から要約されたセグメントレベルの特徴をセグメント時間モデリングに利用する。
提案されたパラダイムは時間モデリングネットワークの選択に関して柔軟である。
我々は,ms-tcnとasformerモデルを時間モデルネットワークとして検討し,スローパスと高速パスの複数の組み合わせ戦略を実験する。
Cholec80外科的位相認識タスクにおけるSF-TMNの評価を行い、SF-TMNが検討されたすべての指標に対して最先端の結果が得られることを示した。
ASFormerのバックボーンを持つSF-TMNは、最先端のNot End-to-End(TCN)メソッドよりも精度が2.6%、Jaccardスコアが7.4%向上している。
また,50slad,GTEA,Breakfastを含むアクションセグメンテーションデータセット上でSF-TMNを評価し,最先端の結果を得た。
その結果, 手術段階の時間的モデル化には, 出力と時間的改良段階を改良することにより, フレームレベルとセグメントレベルの両方からの時間情報の組み合わせが有効であることがわかった。
関連論文リスト
- ConSlide: Asynchronous Hierarchical Interaction Transformer with
Breakup-Reorganize Rehearsal for Continual Whole Slide Image Analysis [24.078490055421852]
医用画像コミュニティではWSI解析がますます重要になっている。
本稿では,WSI分析のためのFIRST連続学習フレームワークであるConSlideを提案する。
論文 参考訳(メタデータ) (2023-08-25T11:58:25Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Ultra-low Latency Spiking Neural Networks with Spatio-Temporal
Compression and Synaptic Convolutional Block [4.081968050250324]
スパイキングニューラルネットワーク(SNN)は、神経時間情報能力、低処理機能、高い生物学的妥当性を有する。
Neuro-MNIST、CIFAR10-S、DVS128ジェスチャデータセットは、個々のイベントをフレームに集約し、イベントストリーム分類の時間分解能を高める必要がある。
本研究では,NIST電流の時間ステップに個々のイベントを集約し,トレーニングや推論の遅延を低減する処理時間圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T15:14:13Z) - Mutual Contrastive Learning to Disentangle Whole Slide Image
Representations for Glioma Grading [10.65788461379405]
全スライド画像(WSI)は,腫瘍の組織学的悪性度評価とグレーディングに有用な表現型情報を提供する。
最も一般的に使用されるWSIは、ホルマリン固定パラフィン埋め込み(FFPE)と凍結セクションに由来する。
そこで本研究では,FFPEと凍結部を統合し,グリオーマグレーディングのためのモダリティ表現を歪曲する相互コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T11:08:44Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。