論文の概要: Neural Finite-State Machines for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2411.18018v1
- Date: Wed, 27 Nov 2024 03:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:25:33.975037
- Title: Neural Finite-State Machines for Surgical Phase Recognition
- Title(参考訳): 外科的位相認識のための神経有限状態機械
- Authors: Hao Ding, Zhongpai Gao, Benjamin Planche, Tianyu Luan, Abhishek Sharma, Meng Zheng, Ange Lou, Terrence Chen, Mathias Unberath, Ziyan Wu,
- Abstract要約: 深層学習アプローチで手続き的理解をブリッジするニューラル有限状態機械(NFSM)モジュールを導入する。
NFSMは、Colec80データセット上のビデオレベルの精度、位相レベルの精度、リコール、ジャカードインデックスをそれぞれ2.3、3.2、3.0、および4.8パーセント改善する。
- 参考スコア(独自算出の注目度): 30.912252237906724
- License:
- Abstract: Surgical phase recognition is essential for analyzing procedure-specific surgical videos. While recent transformer-based architectures have advanced sequence processing capabilities, they struggle with maintaining consistency across lengthy surgical procedures. Drawing inspiration from classical hidden Markov models' finite-state interpretations, we introduce the neural finite-state machine (NFSM) module, which bridges procedural understanding with deep learning approaches. NFSM combines procedure-level understanding with neural networks through global state embeddings, attention-based dynamic transition tables, and transition-aware training and inference mechanisms for offline and online applications. When integrated into our future-aware architecture, NFSM improves video-level accuracy, phase-level precision, recall, and Jaccard indices on Cholec80 datasets by 2.3, 3.2, 3.0, and 4.8 percentage points respectively. As an add-on module to existing state-of-the-art models like Surgformer, NFSM further enhances performance, demonstrating its complementary value. Extended experiments on non-surgical datasets validate NFSM's generalizability beyond surgical domains. Comprehensive experiments demonstrate that incorporating NSFM into deep learning frameworks enables more robust and consistent phase recognition across long procedural videos.
- Abstract(参考訳): 外科的位相認識は術中特異的な手術ビデオの解析に不可欠である。
最近のトランスフォーマーベースのアーキテクチャは、高度なシーケンス処理機能を備えているが、長い手術手順の整合性を維持するのに苦労している。
古典的隠れマルコフモデルの有限状態解釈からインスピレーションを得たニューラルネットワーク有限状態機械 (NFSM) モジュールを導入する。
NFSMは、グローバルな状態埋め込み、注目ベースの動的トランジションテーブル、オフラインおよびオンラインアプリケーションのためのトランジションアウェアトレーニングと推論メカニズムを通じて、プロシージャレベルの理解とニューラルネットワークを組み合わせる。
将来のアーキテクチャに統合されると、NFSMは、Colec80データセット上のビデオレベルの精度、位相レベルの精度、リコール、およびJaccardインデックスをそれぞれ2.3、3.2、3.0、および4.8パーセント改善する。
Surgformerのような既存の最先端モデルへのアドオンモジュールとして、NFSMはパフォーマンスをさらに向上させ、その補完的な価値を示している。
非外科的データセットに関する拡張実験は、NFSMの外科領域を越えた一般化性を検証する。
包括的実験により、NSFMをディープラーニングフレームワークに組み込むことで、長いプロシージャビデオ間でより堅牢で一貫した位相認識が可能になることが示されている。
関連論文リスト
- Benchmarking and Enhancing Surgical Phase Recognition Models for Robotic-Assisted Esophagectomy [1.0807134580166777]
食道癌に対する低侵襲食道切除術(RAMIE)を施行した。
我々の目標は, 外科的位相認識に深層学習を活用することであり, 術中支援を外科医に提供することである。
この複雑な手順の時間的ダイナミクスをより効果的に捉えるために,エンコーダ・デコーダ構造を特徴とする新しいディープラーニングモデルを開発した。
論文 参考訳(メタデータ) (2024-12-05T10:23:16Z) - SkelMamba: A State Space Model for Efficient Skeleton Action Recognition of Neurological Disorders [14.304356695180005]
骨格に基づく人間行動認識のための新しい状態空間モデル(SSM)を提案する。
本モデルでは,複数部位にわたる局所的な関節相互作用と大域的な運動パターンを捉える。
この歩行認識分解は、診断において重要な微妙な動きパターンを識別する能力を高める。
論文 参考訳(メタデータ) (2024-11-29T08:43:52Z) - Pediatric TSC-Related Epilepsy Classification from Clinical MR Images Using Quantum Neural Network [17.788579893962492]
本研究では,従来の畳み込みニューラルネットワークと量子ニューラルネットワークをシームレスに統合した新しいディープラーニングモデルQResNetを紹介する。
TSCMRI画像分類において,従来の3D-ResNetモデルと比較してQResNetの優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-08T14:11:06Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Aggregating Long-Term Context for Learning Laparoscopic and
Robot-Assisted Surgical Workflows [40.48632897750319]
本稿では,タスク固有のネットワーク表現を利用した時間的ネットワーク構造を提案する。
腹腔鏡下胆嚢摘出術を施行した。
論文 参考訳(メタデータ) (2020-09-01T20:29:14Z) - TeCNO: Surgical Phase Recognition with Multi-Stage Temporal
Convolutional Networks [43.95869213955351]
外科的位相認識のための階層的予測補正を行う多段階時間畳み込みネットワーク(MS-TCN)を提案する。
本手法は腹腔鏡下胆嚢摘出術ビデオの2つのデータセットに対して,追加の外科的ツール情報を用いずに徹底的に評価した。
論文 参考訳(メタデータ) (2020-03-24T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。