論文の概要: A Novel Deep ML Architecture by Integrating Visual Simultaneous
Localization and Mapping (vSLAM) into Mask R-CNN for Real-time Surgical Video
Analysis
- arxiv url: http://arxiv.org/abs/2103.16847v1
- Date: Wed, 31 Mar 2021 06:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:22:49.337970
- Title: A Novel Deep ML Architecture by Integrating Visual Simultaneous
Localization and Mapping (vSLAM) into Mask R-CNN for Real-time Surgical Video
Analysis
- Title(参考訳): リアルタイム手術映像解析のための視覚的局所化マッピング(vSLAM)をマスクR-CNNに統合した新しい深部MLアーキテクチャ
- Authors: Ella Selina Lan
- Abstract要約: 本研究では,新しい機械学習アーキテクチャであるRPM-CNNを作成し,リアルタイム手術解析を行った。
RPM-CNNは視覚的同時ローカライゼーションとマッピング(vSLAM)をMask R-CNNに統合する。
RPM-CNNのリアルタイムトップパフォーマンスを現実世界に適用するために、Microsoft HoloLens 2アプリケーションを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Seven million people suffer complications after surgery each year. With
sufficient surgical training and feedback, half of these complications could be
prevented. Automatic surgical video analysis, especially for minimally invasive
surgery, plays a key role in training and review, with increasing interests
from recent studies on tool and workflow detection. In this research, a novel
machine learning architecture, RPM-CNN, is created to perform real-time
surgical video analysis. This architecture, for the first time, integrates
visual simultaneous localization and mapping (vSLAM) into Mask R-CNN.
Spatio-temporal information, in addition to the visual features, is utilized to
increase the accuracy to 96.8 mAP for tool detection and 97.5 mean Jaccard for
workflow detection, surpassing all previous works via the same benchmark
dataset. As a real-time prediction, the RPM-CNN model reaches a 50 FPS runtime
performance speed, 10x faster than region based CNN, by modeling the
spatio-temporal information directly from surgical videos during the vSLAM 3D
mapping. Additionally, this novel Region Proposal Module (RPM) replaces the
region proposal network (RPN) in Mask R-CNN, accurately placing bounding-boxes
and lessening the annotation requirement. In principle, this architecture
integrates the best of both worlds, inclusive of 1) vSLAM on object detection,
through focusing on geometric information for region proposals and 2) CNN on
object recognition, through focusing on semantic information for image
classification; the integration of these two technologies into one joint
training process opens a new door in computer vision. Furthermore, to apply
RPM-CNN's real-time top performance to the real world, a Microsoft HoloLens 2
application is developed to provide an augmented reality (AR) based solution
for both surgical training and assistance.
- Abstract(参考訳): 手術後、毎年700万人が合併症に苦しむ。
十分な外科的訓練とフィードバックにより、これらの合併症の半分を予防できる。
外科的ビデオの自動解析、特に最小侵襲手術は、ツールとワークフロー検出に関する最近の研究から関心が高まり、トレーニングとレビューにおいて重要な役割を担っている。
本研究では,新しい機械学習アーキテクチャであるRPM-CNNを作成し,リアルタイムな手術映像解析を行う。
このアーキテクチャは初めて、視覚的同時ローカライゼーションとマッピング(vSLAM)をMask R-CNNに統合する。
視覚的な特徴に加えて、時空間情報はツール検出のための96.8マップとワークフロー検出のための97.5平均jaccardに精度を向上させるために利用され、同じベンチマークデータセットで以前のすべての作業を超える。
リアルタイム予測として、RPM-CNNモデルは、vSLAM 3Dマッピング中の手術ビデオから直接、時空間情報をモデル化することにより、50FPSのランタイムパフォーマンス速度、地域ベースCNNの10倍の速度に達する。
さらに、この新しいリージョン提案モジュール(RPM)は、Mask R-CNNのリージョン提案ネットワーク(RPN)を置き換え、バウンディングボックスを正確に配置し、アノテーション要件を小さくする。
原則として、このアーキテクチャは、1) 対象検出に関するvslam、地域提案のための幾何学的情報に焦点を当てること、2) 画像分類のための意味情報に焦点を当てることによるオブジェクト認識に関するcnn、という2つの世界のベストを統合する。
さらに、RPM-CNNのリアルタイムトップパフォーマンスを現実世界に適用するために、Microsoft HoloLens 2アプリケーションが開発され、手術訓練と補助の両方に拡張現実(AR)ベースのソリューションを提供する。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - An Acceleration Method Based on Deep Learning and Multilinear Feature
Space [0.0]
本稿では,大規模CNNアーキテクチャからの学習を伝達するために,Multilinear Feature Space (MFS)法に基づく代替手法を提案する。
提案手法はCNNを用いて特徴マップを生成するが,複雑性低減手法として機能しない。
AMFCと呼ばれる本手法では,事前学習したCNNからの移動学習を用いて,新しいサンプル画像の分類時間を最小限に抑える。
論文 参考訳(メタデータ) (2021-10-16T23:49:12Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Dynamic Gesture Recognition [0.0]
従来のコンピュータビジョンアルゴリズムの代わりに、機械学習を使って画像や動画を分類することができる。
このプロジェクトの目的は、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)の共生を構築することである。
論文 参考訳(メタデータ) (2021-09-20T09:45:29Z) - SurgeonAssist-Net: Towards Context-Aware Head-Mounted Display-Based
Augmented Reality for Surgical Guidance [18.060445966264727]
SurgeonAssist-Netは、アクション・アンド・ワークフロー駆動の仮想アシストを、市販の光学シースルーヘッドマウントディスプレイ(OST-HMD)に利用できるようにするフレームワークである。
本実装は,タスクの自動認識のための予測精度において,最先端の手法と競合する。
これはMicrosoft HoloLens 2 OST-HMD上でほぼリアルタイムで動作することができる。
論文 参考訳(メタデータ) (2021-07-13T21:12:34Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Detection and Localization of Robotic Tools in Robot-Assisted Surgery
Videos Using Deep Neural Networks for Region Proposal and Detection [30.042965489804356]
本稿では,RASビデオ理解におけるツール検出と局所化の解法を提案する。
本稿では,マルチモーダル畳み込みニューラルネットワークを用いたRASビデオにおけるツールの高速検出とローカライズのためのアーキテクチャを提案する。
平均精度91%, 平均時間0.1秒で測定した結果, 従来の医用画像撮影法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-07-29T10:59:15Z) - Accurate Tumor Tissue Region Detection with Accelerated Deep
Convolutional Neural Networks [12.7414209590152]
がん診断のための手動の病理診断は、退屈で反復的である。
我々のアプローチであるFLASHは、ディープ畳み込みニューラルネットワーク(DCNN)アーキテクチャに基づいている。
計算コストを削減し、一般的なディープラーニングアプローチよりも2桁の速さで高速である。
論文 参考訳(メタデータ) (2020-04-18T08:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。