論文の概要: GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos
- arxiv url: http://arxiv.org/abs/2307.11081v1
- Date: Thu, 20 Jul 2023 17:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 11:39:35.049640
- Title: GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos
- Title(参考訳): GLSFormer : 手術ビデオにおけるステップ認識のための長い短いシーケンス変換器
- Authors: Nisarg A. Shah, Shameema Sikder, S. Swaroop Vedula, Vishal M. Patel
- Abstract要約: 本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
- 参考スコア(独自算出の注目度): 57.93194315839009
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated surgical step recognition is an important task that can
significantly improve patient safety and decision-making during surgeries.
Existing state-of-the-art methods for surgical step recognition either rely on
separate, multi-stage modeling of spatial and temporal information or operate
on short-range temporal resolution when learned jointly. However, the benefits
of joint modeling of spatio-temporal features and long-range information are
not taken in account. In this paper, we propose a vision transformer-based
approach to jointly learn spatio-temporal features directly from sequence of
frame-level patches. Our method incorporates a gated-temporal attention
mechanism that intelligently combines short-term and long-term spatio-temporal
feature representations. We extensively evaluate our approach on two cataract
surgery video datasets, namely Cataract-101 and D99, and demonstrate superior
performance compared to various state-of-the-art methods. These results
validate the suitability of our proposed approach for automated surgical step
recognition. Our code is released at:
https://github.com/nisargshah1999/GLSFormer
- Abstract(参考訳): 外科的ステップの自動認識は、手術中の患者の安全性と意思決定を大幅に改善する重要な課題である。
既存の外科的段階認識のための最先端の手法は、空間情報と時間情報の分離した多段階モデリングに依存するか、あるいは、共同で学習した場合に短距離時間分解能で操作する。
しかし、時空間的特徴と長距離情報の共同モデリングの利点は考慮されていない。
本稿では,フレームレベルのパッチのシーケンスから時空間的特徴を直接学習するビジョントランスフォーマによるアプローチを提案する。
本手法では,短期・長期の時空間特徴表現をインテリジェントに組み合わせたゲート時間アテンション機構を組み込んだ。
2つの白内障手術ビデオデータセット(白内障101とd99)に対するアプローチを広範囲に評価し,最先端の手法と比較して優れた性能を示す。
これらの結果は, 手術ステップの自動認識における提案手法の適合性を検証する。
私たちのコードは、https://github.com/nisargshah 1999/GLSFormerでリリースされています。
関連論文リスト
- MuST: Multi-Scale Transformers for Surgical Phase Recognition [40.047145788604716]
手術ビデオにおける位相認識は,コンピュータ支援手術システムの強化に不可欠である。
既存の手法は、動的外科的位相を特定するためにビデオ解析のために固定時間窓に頼っていることが多い。
手術相認識のためのマルチスケールトランスフォーマー(MuST)を提案する。
論文 参考訳(メタデータ) (2024-07-24T15:38:20Z) - Friends Across Time: Multi-Scale Action Segmentation Transformer for
Surgical Phase Recognition [2.10407185597278]
オフライン手術相認識のためのMS-AST(Multi-Scale Action Causal Transformer)とオンライン手術相認識のためのMS-ASCT(Multi-Scale Action Causal Transformer)を提案する。
オンラインおよびオフラインの外科的位相認識のためのColec80データセットでは,95.26%,96.15%の精度が得られる。
論文 参考訳(メタデータ) (2024-01-22T01:34:03Z) - TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition [1.5237530964650965]
畳み込み型U-Net構造のコアに自己アテンションを組み込んだ,効率的かつシンプルな時間モデルTUNeSを提案する。
実験では, ほぼすべての時間モデルが, より長い時間的文脈で訓練された特徴抽出器上でより優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-19T14:10:55Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z) - Symmetric Dilated Convolution for Surgical Gesture Recognition [10.699258974625073]
外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。
本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。
JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-07-13T13:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。