論文の概要: Hierarchical Semi-Supervised Learning Framework for Surgical Gesture
Segmentation and Recognition Based on Multi-Modality Data
- arxiv url: http://arxiv.org/abs/2308.02529v1
- Date: Mon, 31 Jul 2023 21:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 01:08:49.823407
- Title: Hierarchical Semi-Supervised Learning Framework for Surgical Gesture
Segmentation and Recognition Based on Multi-Modality Data
- Title(参考訳): 多モードデータに基づくジェスチャー分割認識のための階層型半教師付き学習フレームワーク
- Authors: Zhili Yuan, Jialin Lin, Dandan Zhang
- Abstract要約: 多モードデータを用いた外科的ジェスチャー分割のための階層型半教師付き学習フレームワークを開発した。
トレーニング済みのResNet-18'バックボーンを備えたTransformerベースのネットワークを使用して,手術ビデオから視覚的特徴を抽出する。
提案手法は、Suturing, Needle Passing, Knot Tyingタスクを含む、公開されているJIGSデータベースのデータを用いて評価されている。
- 参考スコア(独自算出の注目度): 2.8770761243361593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmenting and recognizing surgical operation trajectories into distinct,
meaningful gestures is a critical preliminary step in surgical workflow
analysis for robot-assisted surgery. This step is necessary for facilitating
learning from demonstrations for autonomous robotic surgery, evaluating
surgical skills, and so on. In this work, we develop a hierarchical
semi-supervised learning framework for surgical gesture segmentation using
multi-modality data (i.e. kinematics and vision data). More specifically,
surgical tasks are initially segmented based on distance characteristics-based
profiles and variance characteristics-based profiles constructed using
kinematics data. Subsequently, a Transformer-based network with a pre-trained
`ResNet-18' backbone is used to extract visual features from the surgical
operation videos. By combining the potential segmentation points obtained from
both modalities, we can determine the final segmentation points. Furthermore,
gesture recognition can be implemented based on supervised learning. The
proposed approach has been evaluated using data from the publicly available
JIGSAWS database, including Suturing, Needle Passing, and Knot Tying tasks. The
results reveal an average F1 score of 0.623 for segmentation and an accuracy of
0.856 for recognition.
- Abstract(参考訳): 外科手術の軌跡を異なる意味あるジェスチャーに分割認識することは,ロボット支援手術における外科的ワークフロー解析における重要な予備的ステップである。
このステップは、自律ロボット手術のデモンストレーションから学ぶことの促進、手術スキルの評価等に必要である。
本研究では,多モードデータ(キネマティクスと視覚データ)を用いた外科的ジェスチャーセグメンテーションのための階層的半教師付き学習フレームワークを開発する。
より具体的には、外科的タスクは、まず、距離特性に基づくプロファイルと分散特性に基づくプロファイルに基づいて、キネマティックスデータを用いて構築される。
その後、トレーニング済みの「ResNet-18」バックボーンを備えたTransformerベースのネットワークを使用して、手術ビデオから視覚的特徴を抽出する。
両方のモジュラリティから得られるポテンシャル分節点を組み合わせることで、最終的な分節点を決定することができる。
さらに、教師付き学習に基づいてジェスチャー認識を行うことができる。
提案されたアプローチは、Suturing、Needle Passing、Knot Tyingタスクを含む、公開されているJIGSAWSデータベースのデータを使用して評価されている。
その結果,セグメンテーションの平均f1スコアは0.623点,認識精度は0.856点であった。
関連論文リスト
- SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - Video-Instrument Synergistic Network for Referring Video Instrument
Segmentation in Robotic Surgery [29.72271827272853]
本研究は,手術用ビデオ機器(RSVIS)の新たな課題を探求する。
与えられた言語表現に基づいて対応する手術器具を自動的に識別・分節することを目的としている。
我々は,ビデオレベルと楽器レベルの両方の知識を学習し,性能を向上させるために,ビデオ機器合成ネットワーク(VIS-Net)を考案した。
論文 参考訳(メタデータ) (2023-08-18T11:24:06Z) - Surgical Phase Recognition in Laparoscopic Cholecystectomy [57.929132269036245]
本稿では,2段階推論パイプラインのキャリブレーションされた信頼度スコアを利用するTransformerに基づく手法を提案する。
提案手法はColec80データセットのベースラインモデルよりも優れており,様々なアクションセグメンテーション手法に適用できる。
論文 参考訳(メタデータ) (2022-06-14T22:55:31Z) - Surgical Gesture Recognition Based on Bidirectional Multi-Layer
Independently RNN with Explainable Spatial Feature Extraction [10.469989981471254]
本研究では, 説明可能な特徴抽出プロセスを用いて, 効果的な外科的ジェスチャー認識手法の開発を目指す。
本稿では,双方向マルチ層独立RNN(BML-indRNN)モデルを提案する。
dcnnのブラックボックス効果を解消するために、勾配重み付けクラスアクティベーションマッピング(grad-cam)を用いる。
その結果,提案手法に基づく縫合作業の精度は87.13%であり,最先端のアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-05-02T12:47:19Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z) - Multi-Task Recurrent Neural Network for Surgical Gesture Recognition and
Progress Prediction [17.63619129438996]
本稿では,手術動作の同時認識のためのマルチタスクリカレントニューラルネットワークを提案する。
マルチタスクフレームワークでは,手作業によるラベリングやトレーニングを伴わずに,進捗推定による認識性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-03-10T14:28:02Z) - Automatic Gesture Recognition in Robot-assisted Surgery with
Reinforcement Learning and Tree Search [63.07088785532908]
共同手術におけるジェスチャー分割と分類のための強化学習と木探索に基づく枠組みを提案する。
我々のフレームワークは,JIGSAWSデータセットのサチューリングタスクにおいて,精度,編集スコア,F1スコアの点で,既存の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2020-02-20T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。