論文の概要: Friends Across Time: Multi-Scale Action Segmentation Transformer for
Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2401.11644v1
- Date: Mon, 22 Jan 2024 01:34:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:34:39.339219
- Title: Friends Across Time: Multi-Scale Action Segmentation Transformer for
Surgical Phase Recognition
- Title(参考訳): 時間を越えた友人:手術相認識のためのマルチスケールアクションセグメンテーション変換器
- Authors: Bokai Zhang, Jiayuan Meng, Bin Cheng, Dean Biskup, Svetlana
Petculescu, Angela Chapman
- Abstract要約: オフライン手術相認識のためのMS-AST(Multi-Scale Action Causal Transformer)とオンライン手術相認識のためのMS-ASCT(Multi-Scale Action Causal Transformer)を提案する。
オンラインおよびオフラインの外科的位相認識のためのColec80データセットでは,95.26%,96.15%の精度が得られる。
- 参考スコア(独自算出の注目度): 2.10407185597278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic surgical phase recognition is a core technology for modern
operating rooms and online surgical video assessment platforms. Current
state-of-the-art methods use both spatial and temporal information to tackle
the surgical phase recognition task. Building on this idea, we propose the
Multi-Scale Action Segmentation Transformer (MS-AST) for offline surgical phase
recognition and the Multi-Scale Action Segmentation Causal Transformer
(MS-ASCT) for online surgical phase recognition. We use ResNet50 or
EfficientNetV2-M for spatial feature extraction. Our MS-AST and MS-ASCT can
model temporal information at different scales with multi-scale temporal
self-attention and multi-scale temporal cross-attention, which enhances the
capture of temporal relationships between frames and segments. We demonstrate
that our method can achieve 95.26% and 96.15% accuracy on the Cholec80 dataset
for online and offline surgical phase recognition, respectively, which achieves
new state-of-the-art results. Our method can also achieve state-of-the-art
results on non-medical datasets in the video action segmentation domain.
- Abstract(参考訳): 自動手術相認識は、現代の手術室とオンライン手術ビデオアセスメントプラットフォームのための中核技術である。
現在の最先端手法は、空間情報と時間情報の両方を用いて、外科的位相認識タスクに取り組む。
そこで本研究では,オフライン手術相認識用マルチスケールアクションセグメンテーショントランス (ms-ast) とオンライン手術相認識用マルチスケールアクションセグメンテーション因果トランス (ms-asct) を提案する。
空間特徴抽出にはResNet50またはEfficientNetV2-Mを用いる。
我々のMS-ASTとMS-ASCTは、多スケールの時間的自己注意と多スケールの時間的相互意識を用いて、時間的情報を異なるスケールでモデル化することができる。
本研究では,オンラインおよびオフラインの手術相認識のためのcholec80データセットにおいて,95.26%と96.15%の精度をそれぞれ達成できることを示す。
本手法は,ビデオアクションセグメンテーション領域における非医療データセットの最先端結果も達成できる。
関連論文リスト
- MuST: Multi-Scale Transformers for Surgical Phase Recognition [40.047145788604716]
手術ビデオにおける位相認識は,コンピュータ支援手術システムの強化に不可欠である。
既存の手法は、動的外科的位相を特定するためにビデオ解析のために固定時間窓に頼っていることが多い。
手術相認識のためのマルチスケールトランスフォーマー(MuST)を提案する。
論文 参考訳(メタデータ) (2024-07-24T15:38:20Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Surgical Phase Recognition in Laparoscopic Cholecystectomy [57.929132269036245]
本稿では,2段階推論パイプラインのキャリブレーションされた信頼度スコアを利用するTransformerに基づく手法を提案する。
提案手法はColec80データセットのベースラインモデルよりも優れており,様々なアクションセグメンテーション手法に適用できる。
論文 参考訳(メタデータ) (2022-06-14T22:55:31Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - TeCNO: Surgical Phase Recognition with Multi-Stage Temporal
Convolutional Networks [43.95869213955351]
外科的位相認識のための階層的予測補正を行う多段階時間畳み込みネットワーク(MS-TCN)を提案する。
本手法は腹腔鏡下胆嚢摘出術ビデオの2つのデータセットに対して,追加の外科的ツール情報を用いずに徹底的に評価した。
論文 参考訳(メタデータ) (2020-03-24T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。