Fugu-MT 論文翻訳(概要): Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning

論文の概要: Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning

arxiv url: http://arxiv.org/abs/2404.04992v1
Date: Sun, 7 Apr 2024 15:27:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 16:22:29.673164
Title: Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning
Title（参考訳）: HMM安定化深層学習による効率的な手術ツール認識
Authors: Haifeng Wang, Hao Xu, Jun Wang, Jian Zhou, Ke Deng,
Abstract要約: ツール存在検出のためのHMM安定化深層学習手法を提案する。様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
参考スコア（独自算出の注目度）: 25.146476653453227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recognizing various surgical tools, actions and phases from surgery videos is an important problem in computer vision with exciting clinical applications. Existing deep-learning-based methods for this problem either process each surgical video as a series of independent images without considering their dependence, or rely on complicated deep learning models to count for dependence of video frames. In this study, we revealed from exploratory data analysis that surgical videos enjoy relatively simple semantic structure, where the presence of surgical phases and tools can be well modeled by a compact hidden Markov model (HMM). Based on this observation, we propose an HMM-stabilized deep learning method for tool presence detection. A wide range of experiments confirm that the proposed approaches achieve better performance with lower training and running costs, and support more flexible ways to construct and utilize training data in scenarios where not all surgery videos of interest are extensively labelled. These results suggest that popular deep learning approaches with over-complicated model structures may suffer from inefficient utilization of data, and integrating ingredients of deep learning and statistical learning wisely may lead to more powerful algorithms that enjoy competitive performance, transparent interpretation and convenient model training simultaneously.
Abstract（参考訳）: 手術用ツールやアクション,フェーズを手術ビデオから認識することは,エキサイティングな臨床応用を伴うコンピュータビジョンにおいて重要な問題である。この問題に対する既存のディープラーニングベースの手法は、個々の手術映像を、その依存を考慮せずに一連の独立した画像として処理するか、あるいはビデオフレームの依存をカウントするために複雑なディープラーニングモデルに依存するかのどちらかである。本研究では,術中ビデオが比較的単純な意味構造を享受し,術中位相やツールの存在をコンパクトな隠れマルコフモデル(HMM)でモデル化できることを探索データ分析から明らかにした。そこで本研究では,ツール存在検出のためのHMM安定化深層学習手法を提案する。幅広い実験により、提案手法はトレーニングコストとランニングコストを低減し、興味のあるすべての手術ビデオが広範囲にラベル付けされていないシナリオでトレーニングデータを構築し、活用するためのより柔軟な方法をサポートすることが確認された。これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法はデータの非効率な利用に悩まされる可能性があり,深層学習と統計的学習の要素を賢く統合することで,競争性能,透過的解釈,便利なモデルトレーニングを同時に享受するより強力なアルゴリズムがもたらされることが示唆された。

関連論文リスト

ReSW-VL: Representation Learning for Surgical Workflow Analysis Using Vision-Language Model [0.07143413923310668]
ビデオからの外科的位相認識は、外科手術の進行を自動的に分類する技術である。外科的位相認識技術の最近の進歩は、主にトランスフォーメーションに基づく手法に焦点を当てている。視覚言語モデルを用いた外科的ワークフロー解析における表現学習法を提案する。
論文参考訳（メタデータ） (2025-05-19T21:44:37Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding [1.024113475677323]
データセットの欠如は、正確で包括的なワークフロー分析ソリューションの開発を妨げる。本稿では,専門家を観察し,その説明を理解するための人間の学習手順から着想を得た,データの空間性と不均一性に対処する新しいアプローチを提案する。手術領域に既存のデータセットが存在しないにもかかわらず,この課題に対処するため,外科的ビデオの高密度字幕化(DVC)のための最初の包括的ソリューションを提示する。
論文参考訳（メタデータ） (2025-03-14T13:36:13Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [50.09187683845788]
手術用コンピュータビジョンの応用の最近の進歩は、視覚のみのモデルによって駆動されている。これらの手法は、固定されたオブジェクトカテゴリのセットを予測するために手動で注釈付き手術ビデオに依存する。本研究では,オープンな外科的eラーニングプラットフォームを通じて提供される外科的ビデオ講義が,効果的な視覚と言語監督の信号を提供することができるという考えを提起した。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文参考訳（メタデータ） (2023-05-19T06:12:50Z)
Surgical tool classification and localization: results and methods from the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文参考訳（メタデータ） (2023-05-11T21:44:39Z)
Multi-Modal Unsupervised Pre-Training for Surgical Operating Room Workflow Analysis [4.866110274299399]
本稿では,単一のビデオフレームや画像に対して,マルチモーダルデータを融合する新しい手法を提案する。マルチモーダルデータを異なるビューとして扱い、クラスタリングを介して教師なしの方法でモデルを訓練する。以上の結果から,手術映像の動作認識とセマンティックセグメンテーションにおけるアプローチの優れた性能が示された。
論文参考訳（メタデータ） (2022-07-16T10:32:27Z)
Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文参考訳（メタデータ） (2022-07-01T14:17:11Z)
Federated Cycling (FedCy): Semi-supervised Federated Learning of Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文参考訳（メタデータ） (2022-03-14T17:44:53Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Synthetic and Real Inputs for Tool Segmentation in Robotic Surgery [10.562627972607892]
腹腔鏡画像と組み合わせたロボットキネマティックデータを用いてラベル付け問題を緩和できる可能性が示唆された。腹腔鏡画像とシミュレーション画像の並列処理のための新しい深層学習モデルを提案する。
論文参考訳（メタデータ） (2020-07-17T16:33:33Z)
LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文参考訳（メタデータ） (2020-04-21T09:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。