論文の概要: Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning
- arxiv url: http://arxiv.org/abs/2404.04992v1
- Date: Sun, 7 Apr 2024 15:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 16:22:29.673164
- Title: Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning
- Title(参考訳): HMM安定化深層学習による効率的な手術ツール認識
- Authors: Haifeng Wang, Hao Xu, Jun Wang, Jian Zhou, Ke Deng,
- Abstract要約: ツール存在検出のためのHMM安定化深層学習手法を提案する。
様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
- 参考スコア(独自算出の注目度): 25.146476653453227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing various surgical tools, actions and phases from surgery videos is an important problem in computer vision with exciting clinical applications. Existing deep-learning-based methods for this problem either process each surgical video as a series of independent images without considering their dependence, or rely on complicated deep learning models to count for dependence of video frames. In this study, we revealed from exploratory data analysis that surgical videos enjoy relatively simple semantic structure, where the presence of surgical phases and tools can be well modeled by a compact hidden Markov model (HMM). Based on this observation, we propose an HMM-stabilized deep learning method for tool presence detection. A wide range of experiments confirm that the proposed approaches achieve better performance with lower training and running costs, and support more flexible ways to construct and utilize training data in scenarios where not all surgery videos of interest are extensively labelled. These results suggest that popular deep learning approaches with over-complicated model structures may suffer from inefficient utilization of data, and integrating ingredients of deep learning and statistical learning wisely may lead to more powerful algorithms that enjoy competitive performance, transparent interpretation and convenient model training simultaneously.
- Abstract(参考訳): 手術用ツールやアクション,フェーズを手術ビデオから認識することは,エキサイティングな臨床応用を伴うコンピュータビジョンにおいて重要な問題である。
この問題に対する既存のディープラーニングベースの手法は、個々の手術映像を、その依存を考慮せずに一連の独立した画像として処理するか、あるいはビデオフレームの依存をカウントするために複雑なディープラーニングモデルに依存するかのどちらかである。
本研究では,術中ビデオが比較的単純な意味構造を享受し,術中位相やツールの存在をコンパクトな隠れマルコフモデル(HMM)でモデル化できることを探索データ分析から明らかにした。
そこで本研究では,ツール存在検出のためのHMM安定化深層学習手法を提案する。
幅広い実験により、提案手法はトレーニングコストとランニングコストを低減し、興味のあるすべての手術ビデオが広範囲にラベル付けされていないシナリオでトレーニングデータを構築し、活用するためのより柔軟な方法をサポートすることが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法はデータの非効率な利用に悩まされる可能性があり,深層学習と統計的学習の要素を賢く統合することで,競争性能,透過的解釈,便利なモデルトレーニングを同時に享受するより強力なアルゴリズムがもたらされることが示唆された。
関連論文リスト
- Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - Multi-Modal Unsupervised Pre-Training for Surgical Operating Room
Workflow Analysis [4.866110274299399]
本稿では,単一のビデオフレームや画像に対して,マルチモーダルデータを融合する新しい手法を提案する。
マルチモーダルデータを異なるビューとして扱い、クラスタリングを介して教師なしの方法でモデルを訓練する。
以上の結果から,手術映像の動作認識とセマンティックセグメンテーションにおけるアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2022-07-16T10:32:27Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Synthetic and Real Inputs for Tool Segmentation in Robotic Surgery [10.562627972607892]
腹腔鏡画像と組み合わせたロボットキネマティックデータを用いてラベル付け問題を緩和できる可能性が示唆された。
腹腔鏡画像とシミュレーション画像の並列処理のための新しい深層学習モデルを提案する。
論文 参考訳(メタデータ) (2020-07-17T16:33:33Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。