論文の概要: AP-MTL: Attention Pruned Multi-task Learning Model for Real-time
Instrument Detection and Segmentation in Robot-assisted Surgery
- arxiv url: http://arxiv.org/abs/2003.04769v2
- Date: Sun, 31 May 2020 12:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:38:59.218493
- Title: AP-MTL: Attention Pruned Multi-task Learning Model for Real-time
Instrument Detection and Segmentation in Robot-assisted Surgery
- Title(参考訳): ap-mtl : ロボット支援手術におけるリアルタイム計測とセグメント化のためのマルチタスク学習モデル
- Authors: Mobarakol Islam, Vibashan VS, Hongliang Ren
- Abstract要約: 高解像度画像の検出とセグメンテーションのためのリアルタイムロボットシステムの訓練は、限られた計算資源で難しい問題となる。
重み付きエンコーダとタスク認識検出とセグメンテーションデコーダを備えた,エンドツーエンドのトレーニング可能なリアルタイムマルチタスク学習モデルを開発した。
我々のモデルは最先端のセグメンテーションモデルや検出モデルよりも優れており、最も優れたモデルもその課題である。
- 参考スコア(独自算出の注目度): 23.33984309289549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical scene understanding and multi-tasking learning are crucial for
image-guided robotic surgery. Training a real-time robotic system for the
detection and segmentation of high-resolution images provides a challenging
problem with the limited computational resource. The perception drawn can be
applied in effective real-time feedback, surgical skill assessment, and
human-robot collaborative surgeries to enhance surgical outcomes. For this
purpose, we develop a novel end-to-end trainable real-time Multi-Task Learning
(MTL) model with weight-shared encoder and task-aware detection and
segmentation decoders. Optimization of multiple tasks at the same convergence
point is vital and presents a complex problem. Thus, we propose an asynchronous
task-aware optimization (ATO) technique to calculate task-oriented gradients
and train the decoders independently. Moreover, MTL models are always
computationally expensive, which hinder real-time applications. To address this
challenge, we introduce a global attention dynamic pruning (GADP) by removing
less significant and sparse parameters. We further design a skip squeeze and
excitation (SE) module, which suppresses weak features, excites significant
features and performs dynamic spatial and channel-wise feature re-calibration.
Validating on the robotic instrument segmentation dataset of MICCAI endoscopic
vision challenge, our model significantly outperforms state-of-the-art
segmentation and detection models, including best-performed models in the
challenge.
- Abstract(参考訳): 画像誘導ロボット手術において,手術シーン理解とマルチタスク学習が重要である。
高分解能画像の検出とセグメンテーションのためのリアルタイムロボットシステムのトレーニングは、限られた計算資源で難しい問題をもたらす。
得られた知覚は、実時間フィードバック、手術スキルアセスメント、人間とロボットの協調手術に応用でき、手術の成果を高めることができる。
そこで本研究では,重み付きエンコーダとタスク認識検出とセグメンテーションデコーダを備えた,エンドツーエンドのトレーニング可能なリアルタイムマルチタスク学習(MTL)モデルを開発した。
同じ収束点における複数のタスクの最適化は不可欠であり、複雑な問題を示す。
そこで我々は,タスク指向の勾配を計算し,デコーダを独立に訓練する非同期タスクアウェア最適化(ato)手法を提案する。
さらに、mtlモデルは常に計算コストが高く、リアルタイムアプリケーションを妨げる。
この課題に対処するために、より重要でスパースなパラメータを除去し、グローバルアテンション・ダイナミック・プルーニング(GADP)を導入する。
さらに、弱い特徴を抑え、重要な特徴を励起し、動的空間的・チャネル的特徴再校正を行うスキップ・スクリップ・エキサイクレーション(SE)モジュールを設計する。
MICCAI内視鏡視課題のロボット機器セグメンテーションデータセットを検証した結果、我々のモデルは最先端のセグメンテーションモデルや検出モデルよりも優れている。
関連論文リスト
- SEDMamba: Enhancing Selective State Space Modelling with Bottleneck Mechanism and Fine-to-Coarse Temporal Fusion for Efficient Error Detection in Robot-Assisted Surgery [7.863539113283565]
選択的状態空間モデル(SSM)を外科的誤り検出に組み込んだSEDMambaという新しい階層モデルを提案する。
SEDMambaは、長期ビデオにおける外科的エラーの検出と時間的局所化のために、ボトルネック機構と微細から粗い時間的融合(FCTF)を備えた選択的SSMを強化する。
我々の研究は、実際の手術症例におけるエラー検出を支援するために、第一種、フレームレベル、生存中の外科的エラーデータセットにも貢献する。
論文 参考訳(メタデータ) (2024-06-22T19:20:35Z) - CViT: Continuous Vision Transformer for Operator Learning [24.1795082775376]
連続ビジョントランスフォーマー(Continuous Vision Transformer、CViT)は、コンピュータビジョンの進歩を活用して複雑な物理システムを学ぶ際の課題に対処する、新しい神経オペレーターアーキテクチャである。
CViTは、ビジョントランスフォーマーエンコーダ、新しいグリッドベースの座標埋め込み、マルチスケール依存関係を効果的にキャプチャするクエリワイドのクロスアテンション機構を組み合わせたものである。
本研究では, 流体力学, 気候モデル, 反応拡散過程を含む多種多様な偏微分方程式(PDE)システムにおけるCViTの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-22T21:13:23Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Task-Aware Asynchronous Multi-Task Model with Class Incremental
Contrastive Learning for Surgical Scene Understanding [17.80234074699157]
手術報告生成とツール-タスク間相互作用予測のためのマルチタスク学習モデルを提案する。
共有特徴抽出器のモデル形式,キャプション用メッシュ・トランスフォーマブランチ,ツールとタスク間の相互作用予測のためのグラフアテンションブランチ。
タスク認識型非同期MTL最適化手法を組み込んで,共有重みを微調整し,両タスクを最適に収束させる。
論文 参考訳(メタデータ) (2022-11-28T14:08:48Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Interpretable Hyperspectral AI: When Non-Convex Modeling meets
Hyperspectral Remote Sensing [57.52865154829273]
ハイパースペクトルイメージング、別名画像分光法は、地球科学リモートセンシング(RS)におけるランドマーク技術です。
過去10年間で、主に熟練した専門家によってこれらのハイパースペクトル(HS)製品を分析するための取り組みが行われています。
このため、さまざまなHS RSアプリケーションのためのよりインテリジェントで自動的なアプローチを開発することが急務です。
論文 参考訳(メタデータ) (2021-03-02T03:32:10Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - Real-Time Instrument Segmentation in Robotic Surgery using Auxiliary
Supervised Deep Adversarial Learning [15.490603884631764]
ロボット機器と組織のリアルタイムセマンティックセグメンテーションは、ロボット支援手術において重要なステップである。
我々は,高解像度ビデオから手術器具を分割する軽量カスケード畳み込みニューラルネットワーク(CNN)を開発した。
高解像度ビデオの予測精度とセグメンテーション時間の両方において,術具の画素単位のセグメンテーションのための既存のアルゴリズムを超越していることを示す。
論文 参考訳(メタデータ) (2020-07-22T10:16:07Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。