論文の概要: Neural Finite-State Machines for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2411.18018v2
- Date: Sun, 02 Mar 2025 04:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:04:06.775123
- Title: Neural Finite-State Machines for Surgical Phase Recognition
- Title(参考訳): 外科的位相認識のための神経有限状態機械
- Authors: Hao Ding, Zhongpai Gao, Benjamin Planche, Tianyu Luan, Abhishek Sharma, Meng Zheng, Ange Lou, Terrence Chen, Mathias Unberath, Ziyan Wu,
- Abstract要約: ワークフロー最適化、パフォーマンス評価、リアルタイム介入ガイダンスの応用において、外科的位相認識は不可欠である。
従来の状態遷移前処理を現代のニューラルネットワークに統合することにより時間的コヒーレンスを実現する新しい手法であるNeural Finite-State Machine (NFSM)を提案する。
我々は、BernBypass70データセットの大幅な改善を含む、複数のベンチマークにおける最先端のパフォーマンスを実証した。
- 参考スコア(独自算出の注目度): 30.912252237906724
- License:
- Abstract: Surgical phase recognition (SPR) is crucial for applications in workflow optimization, performance evaluation, and real-time intervention guidance. However, current deep learning models often struggle with fragmented predictions, failing to capture the sequential nature of surgical workflows. We propose the Neural Finite-State Machine (NFSM), a novel approach that enforces temporal coherence by integrating classical state-transition priors with modern neural networks. NFSM leverages learnable global state embeddings as unique phase identifiers and dynamic transition tables to model phase-to-phase progressions. Additionally, a future phase forecasting mechanism employs repeated frame padding to anticipate upcoming transitions. Implemented as a plug-and-play module, NFSM can be integrated into existing SPR pipelines without changing their core architectures. We demonstrate state-of-the-art performance across multiple benchmarks, including a significant improvement on the BernBypass70 dataset - raising video-level accuracy by 0.9 points and phase-level precision, recall, F1-score, and mAP by 3.8, 3.1, 3.3, and 4.1, respectively. Ablation studies confirm each component's effectiveness and the module's adaptability to various architectures. By unifying finite-state principles with deep learning, NFSM offers a robust path toward consistent, long-term surgical video analysis.
- Abstract(参考訳): 外科的位相認識(SPR)は、ワークフロー最適化、パフォーマンス評価、リアルタイム介入ガイダンスの応用において重要である。
しかし、現在のディープラーニングモデルは、しばしば断片化された予測に苦慮し、外科的ワークフローのシーケンシャルな性質を捉えていない。
従来の状態遷移前処理を現代のニューラルネットワークに統合することにより時間的コヒーレンスを実現する新しい手法であるNeural Finite-State Machine (NFSM)を提案する。
NFSMは、学習可能なグローバルな状態埋め込みを、一意の位相識別子と動的遷移テーブルとして活用し、位相間進行をモデル化する。
さらに、将来のフェーズ予測機構では、繰り返しフレームパディングを使用して、今後の遷移を予測している。
プラグアンドプレイモジュールとして実装されたNFSMは、コアアーキテクチャを変更することなく、既存のSPRパイプラインに統合することができる。
我々は、BernBypass70データセットの大幅な改善、ビデオレベルの精度の0.9ポイント、位相レベルの精度の向上、リコール、F1スコア、mAPの3.8、3.1、3.3、4.1など、複数のベンチマークで最先端のパフォーマンスを実証した。
アブレーション研究は各コンポーネントの有効性とモジュールの様々なアーキテクチャへの適応性を確認している。
有限状態原理を深層学習と統合することにより、NFSMは、一貫性のある長期的手術ビデオ分析への堅牢な経路を提供する。
関連論文リスト
- Benchmarking and Enhancing Surgical Phase Recognition Models for Robotic-Assisted Esophagectomy [1.0807134580166777]
食道癌に対する低侵襲食道切除術(RAMIE)を施行した。
我々の目標は, 外科的位相認識に深層学習を活用することであり, 術中支援を外科医に提供することである。
この複雑な手順の時間的ダイナミクスをより効果的に捉えるために,エンコーダ・デコーダ構造を特徴とする新しいディープラーニングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-05T10:23:16Z) - SkelMamba: A State Space Model for Efficient Skeleton Action Recognition of Neurological Disorders [14.304356695180005]
骨格に基づく人間行動認識のための新しい状態空間モデル(SSM)を提案する。
本モデルでは,複数部位にわたる局所的な関節相互作用と大域的な運動パターンを捉える。
この歩行認識分解は、診断において重要な微妙な動きパターンを識別する能力を高める。
論文 参考訳(メタデータ) (2024-11-29T08:43:52Z) - Pediatric TSC-Related Epilepsy Classification from Clinical MR Images Using Quantum Neural Network [17.788579893962492]
本研究では,従来の畳み込みニューラルネットワークと量子ニューラルネットワークをシームレスに統合した新しいディープラーニングモデルQResNetを紹介する。
TSCMRI画像分類において,従来の3D-ResNetモデルと比較してQResNetの優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-08T14:11:06Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Aggregating Long-Term Context for Learning Laparoscopic and
Robot-Assisted Surgical Workflows [40.48632897750319]
本稿では,タスク固有のネットワーク表現を利用した時間的ネットワーク構造を提案する。
腹腔鏡下胆嚢摘出術を施行した。
論文 参考訳(メタデータ) (2020-09-01T20:29:14Z) - TeCNO: Surgical Phase Recognition with Multi-Stage Temporal
Convolutional Networks [43.95869213955351]
外科的位相認識のための階層的予測補正を行う多段階時間畳み込みネットワーク(MS-TCN)を提案する。
本手法は腹腔鏡下胆嚢摘出術ビデオの2つのデータセットに対して,追加の外科的ツール情報を用いずに徹底的に評価した。
論文 参考訳(メタデータ) (2020-03-24T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。