論文の概要: ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery
- arxiv url: http://arxiv.org/abs/2112.08189v1
- Date: Fri, 10 Dec 2021 15:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-19 12:59:44.002569
- Title: ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery
- Title(参考訳): ST-MTL:ロボット手術における追跡機器の走査パス予測のための時空間マルチタスク学習モデル
- Authors: Mobarakol Islam, Vibashan VS, Chwee Ming Lim, Hongliang Ren
- Abstract要約: トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
- 参考スコア(独自算出の注目度): 14.47768738295518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation learning of the task-oriented attention while tracking
instrument holds vast potential in image-guided robotic surgery. Incorporating
cognitive ability to automate the camera control enables the surgeon to
concentrate more on dealing with surgical instruments. The objective is to
reduce the operation time and facilitate the surgery for both surgeons and
patients. We propose an end-to-end trainable Spatio-Temporal Multi-Task
Learning (ST-MTL) model with a shared encoder and spatio-temporal decoders for
the real-time surgical instrument segmentation and task-oriented saliency
detection. In the MTL model of shared parameters, optimizing multiple loss
functions into a convergence point is still an open challenge. We tackle the
problem with a novel asynchronous spatio-temporal optimization (ASTO) technique
by calculating independent gradients for each decoder. We also design a
competitive squeeze and excitation unit by casting a skip connection that
retains weak features, excites strong features, and performs dynamic spatial
and channel-wise feature recalibration. To capture better long term
spatio-temporal dependencies, we enhance the long-short term memory (LSTM)
module by concatenating high-level encoder features of consecutive frames. We
also introduce Sinkhorn regularized loss to enhance task-oriented saliency
detection by preserving computational efficiency. We generate the task-aware
saliency maps and scanpath of the instruments on the dataset of the MICCAI 2017
robotic instrument segmentation challenge. Compared to the state-of-the-art
segmentation and saliency methods, our model outperforms most of the evaluation
metrics and produces an outstanding performance in the challenge.
- Abstract(参考訳): 追跡装置を用いたタスク指向の注意の表現学習は、画像誘導ロボット手術において大きな可能性を秘めている。
カメラ制御を自動化する認知能力を組み込むことで、外科医は手術器具の処理に集中することができる。
目的は手術時間を短縮し,外科医と患者の手術を容易にすることである。
本稿では,実時間手術用機器のセグメント化とタスク指向の塩分検出のための共有エンコーダと時空間デコーダを備えた,エンドツーエンドのトレーニング可能な時空間型マルチタスク学習モデルを提案する。
共有パラメータのMTLモデルでは、多重損失関数を収束点に最適化することは依然としてオープンな課題である。
本稿では,各デコーダの独立勾配を計算することで,新しい非同期時空間最適化(ASTO)手法を提案する。
また,弱い特徴を保ち,強い特徴を励起するスキップ接続を流し,動的空間的・チャネル的特徴補償を行うことで,競争力のある圧縮・励振ユニットを設計する。
長期間の時空間依存をよりよく捉えるため,連続フレームの高レベルエンコーダ特徴を結合することにより,LSTM(Long-Short term memory)モジュールを改良する。
また,計算効率を保ちながらタスク指向の塩分検出を強化するため,シンクホーン正規化損失を導入する。
我々は,MICCAI 2017 ロボット機器セグメンテーション課題のデータセットに基づいて,タスク対応サリエンシマップと機器のスキャンパスを生成する。
最先端のセグメンテーションとサリエンシーメソッドと比較すると,本モデルは評価基準の大部分を上回っており,課題において優れたパフォーマンスを得られる。
関連論文リスト
- SEDMamba: Enhancing Selective State Space Modelling with Bottleneck Mechanism and Fine-to-Coarse Temporal Fusion for Efficient Error Detection in Robot-Assisted Surgery [7.863539113283565]
選択的状態空間モデル(SSM)を外科的誤り検出に組み込んだSEDMambaという新しい階層モデルを提案する。
SEDMambaは、長期ビデオにおける外科的エラーの検出と時間的局所化のために、ボトルネック機構と微細から粗い時間的融合(FCTF)を備えた選択的SSMを強化する。
我々の研究は、実際の手術症例におけるエラー検出を支援するために、第一種、フレームレベル、生存中の外科的エラーデータセットにも貢献する。
論文 参考訳(メタデータ) (2024-06-22T19:20:35Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition [1.5237530964650965]
畳み込み型U-Net構造のコアに自己アテンションを組み込んだ,効率的かつシンプルな時間モデルTUNeSを提案する。
実験では, ほぼすべての時間モデルが, より長い時間的文脈で訓練された特徴抽出器上でより優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-19T14:10:55Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Real-Time Instrument Segmentation in Robotic Surgery using Auxiliary
Supervised Deep Adversarial Learning [15.490603884631764]
ロボット機器と組織のリアルタイムセマンティックセグメンテーションは、ロボット支援手術において重要なステップである。
我々は,高解像度ビデオから手術器具を分割する軽量カスケード畳み込みニューラルネットワーク(CNN)を開発した。
高解像度ビデオの予測精度とセグメンテーション時間の両方において,術具の画素単位のセグメンテーションのための既存のアルゴリズムを超越していることを示す。
論文 参考訳(メタデータ) (2020-07-22T10:16:07Z) - Symmetric Dilated Convolution for Surgical Gesture Recognition [10.699258974625073]
外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。
本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。
JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-07-13T13:34:48Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - AP-MTL: Attention Pruned Multi-task Learning Model for Real-time
Instrument Detection and Segmentation in Robot-assisted Surgery [23.33984309289549]
高解像度画像の検出とセグメンテーションのためのリアルタイムロボットシステムの訓練は、限られた計算資源で難しい問題となる。
重み付きエンコーダとタスク認識検出とセグメンテーションデコーダを備えた,エンドツーエンドのトレーニング可能なリアルタイムマルチタスク学習モデルを開発した。
我々のモデルは最先端のセグメンテーションモデルや検出モデルよりも優れており、最も優れたモデルもその課題である。
論文 参考訳(メタデータ) (2020-03-10T14:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。