論文の概要: Deep learning-based computer vision to recognize and classify suturing
gestures in robot-assisted surgery
- arxiv url: http://arxiv.org/abs/2008.11833v1
- Date: Wed, 26 Aug 2020 21:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 22:15:12.303607
- Title: Deep learning-based computer vision to recognize and classify suturing
gestures in robot-assisted surgery
- Title(参考訳): 深層学習によるロボット支援手術における縫合ジェスチャーの認識と分類
- Authors: Francisco Luongo (1), Ryan Hakim (2), Jessica H. Nguyen (2),
Animashree Anandkumar (3), Andrew J Hung (2) ((1) Department of Biology and
Biological Engineering, Caltech (2) Center for Robotic Simulation &
Education, Catherine & Joseph Aresty Department of Urology, USC Institute of
Urology, University of Southern California (3) Department of Computing &
Mathematical Sciences, Caltech)
- Abstract要約: 我々は深層学習に基づくコンピュータビジョン(CV)を訓練し、針駆動の試みのための縫合ジェスチャーの識別と分類を自動化する。
以上の結果から,縫合動作を識別できるだけでなく,縫合動作の異なる分類を区別できる特徴をCVが認識できることが示唆された。
- 参考スコア(独自算出の注目度): 9.248851083946048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our previous work classified a taxonomy of suturing gestures during a
vesicourethral anastomosis of robotic radical prostatectomy in association with
tissue tears and patient outcomes. Herein, we train deep-learning based
computer vision (CV) to automate the identification and classification of
suturing gestures for needle driving attempts. Using two independent raters, we
manually annotated live suturing video clips to label timepoints and gestures.
Identification (2395 videos) and classification (511 videos) datasets were
compiled to train CV models to produce two- and five-class label predictions,
respectively. Networks were trained on inputs of raw RGB pixels as well as
optical flow for each frame. Each model was trained on 80/20 train/test splits.
In this study, all models were able to reliably predict either the presence of
a gesture (identification, AUC: 0.88) as well as the type of gesture
(classification, AUC: 0.87) at significantly above chance levels. For both
gesture identification and classification datasets, we observed no effect of
recurrent classification model choice (LSTM vs. convLSTM) on performance. Our
results demonstrate CV's ability to recognize features that not only can
identify the action of suturing but also distinguish between different
classifications of suturing gestures. This demonstrates the potential to
utilize deep learning CV towards future automation of surgical skill
assessment.
- Abstract(参考訳): 前報では, 人工根治術後の排尿時縫合動作の分類法を, 組織涙と患者の予後との関連で分類した。
そこで我々は,深層学習に基づくコンピュータビジョン(CV)を訓練し,縫合ジェスチャーの同定と分類を自動化する。
動画クリップを手動でアノテートし,タイムポイントとジェスチャーをラベル付けした。
識別(2395ビデオ)と分類(511ビデオ)のデータセットをコンパイルして,CVモデルをトレーニングし,それぞれ2クラスと5クラスのラベル予測を生成する。
ネットワークは生のRGBピクセルの入力と各フレームの光学フローに基づいて訓練された。
各モデルは80/20の列車/テスト分割で訓練された。
本研究では,すべてのモデルにおいて,ジェスチャの有無 (識別: 0.88) とジェスチャの種類 (分類: 0.87) を高い確率で確実に予測することができた。
ジェスチャー識別と分類データセットの両方において,繰り返し分類モデル選択 (LSTM vs. convLSTM) が性能に与える影響はみられなかった。
本研究は,縫合動作を識別できるだけでなく,縫合動作の異なる分類を区別できる特徴をCVが認識できることを示すものである。
これは深層学習cvを外科的スキルアセスメントの今後の自動化に活用する可能性を示す。
関連論文リスト
- Hierarchical Semi-Supervised Learning Framework for Surgical Gesture
Segmentation and Recognition Based on Multi-Modality Data [2.8770761243361593]
多モードデータを用いた外科的ジェスチャー分割のための階層型半教師付き学習フレームワークを開発した。
トレーニング済みのResNet-18'バックボーンを備えたTransformerベースのネットワークを使用して,手術ビデオから視覚的特徴を抽出する。
提案手法は、Suturing, Needle Passing, Knot Tyingタスクを含む、公開されているJIGSデータベースのデータを用いて評価されている。
論文 参考訳(メタデータ) (2023-07-31T21:17:59Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - Machine Learning-based Classification of Active Walking Tasks in Older
Adults using fNIRS [2.0953361712358025]
機能的近赤外分光法(fNIRS)により測定された前頭前皮質における歩行の皮質制御は、年齢、性別、認知状態、および様々な年齢関連疾患によって抑制されている。
我々は、fNIRS信号に基づいて、高齢者のアクティブウォーキングタスクを分類するための機械学習手法を用いた分類モデルを開発した。
論文 参考訳(メタデータ) (2021-02-08T03:44:24Z) - Self supervised contrastive learning for digital histopathology [0.0]
我々はSimCLRと呼ばれる対照的な自己教師型学習手法を用いて、自然シーン画像の最先端結果を得た。
異なる種類の染色特性と分解特性とを組み合わせることで,学習した特徴の質が向上することがわかった。
学習した機能に基づいてトレーニングされた線形分類器は、デジタル病理学データセットで事前トレーニングされたネットワークが、ImageNet事前トレーニングされたネットワークよりも優れたパフォーマンスを示すことを示している。
論文 参考訳(メタデータ) (2020-11-27T19:18:45Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。