論文の概要: Neural Finite-State Machines for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2411.18018v2
- Date: Sun, 02 Mar 2025 04:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 15:02:13.491505
- Title: Neural Finite-State Machines for Surgical Phase Recognition
- Title(参考訳): 外科的位相認識のための神経有限状態機械
- Authors: Hao Ding, Zhongpai Gao, Benjamin Planche, Tianyu Luan, Abhishek Sharma, Meng Zheng, Ange Lou, Terrence Chen, Mathias Unberath, Ziyan Wu,
- Abstract要約: ワークフロー最適化、パフォーマンス評価、リアルタイム介入ガイダンスの応用において、外科的位相認識は不可欠である。
従来の状態遷移前処理を現代のニューラルネットワークに統合することにより時間的コヒーレンスを実現する新しい手法であるNeural Finite-State Machine (NFSM)を提案する。
我々は、BernBypass70データセットの大幅な改善を含む、複数のベンチマークにおける最先端のパフォーマンスを実証した。
- 参考スコア(独自算出の注目度): 30.912252237906724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical phase recognition (SPR) is crucial for applications in workflow optimization, performance evaluation, and real-time intervention guidance. However, current deep learning models often struggle with fragmented predictions, failing to capture the sequential nature of surgical workflows. We propose the Neural Finite-State Machine (NFSM), a novel approach that enforces temporal coherence by integrating classical state-transition priors with modern neural networks. NFSM leverages learnable global state embeddings as unique phase identifiers and dynamic transition tables to model phase-to-phase progressions. Additionally, a future phase forecasting mechanism employs repeated frame padding to anticipate upcoming transitions. Implemented as a plug-and-play module, NFSM can be integrated into existing SPR pipelines without changing their core architectures. We demonstrate state-of-the-art performance across multiple benchmarks, including a significant improvement on the BernBypass70 dataset - raising video-level accuracy by 0.9 points and phase-level precision, recall, F1-score, and mAP by 3.8, 3.1, 3.3, and 4.1, respectively. Ablation studies confirm each component's effectiveness and the module's adaptability to various architectures. By unifying finite-state principles with deep learning, NFSM offers a robust path toward consistent, long-term surgical video analysis.
- Abstract(参考訳): 外科的位相認識(SPR)は、ワークフロー最適化、パフォーマンス評価、リアルタイム介入ガイダンスの応用において重要である。
しかし、現在のディープラーニングモデルは、しばしば断片化された予測に苦慮し、外科的ワークフローのシーケンシャルな性質を捉えていない。
従来の状態遷移前処理を現代のニューラルネットワークに統合することにより時間的コヒーレンスを実現する新しい手法であるNeural Finite-State Machine (NFSM)を提案する。
NFSMは、学習可能なグローバルな状態埋め込みを、一意の位相識別子と動的遷移テーブルとして活用し、位相間進行をモデル化する。
さらに、将来のフェーズ予測機構では、繰り返しフレームパディングを使用して、今後の遷移を予測している。
プラグアンドプレイモジュールとして実装されたNFSMは、コアアーキテクチャを変更することなく、既存のSPRパイプラインに統合することができる。
我々は、BernBypass70データセットの大幅な改善、ビデオレベルの精度の0.9ポイント、位相レベルの精度の向上、リコール、F1スコア、mAPの3.8、3.1、3.3、4.1など、複数のベンチマークで最先端のパフォーマンスを実証した。
アブレーション研究は各コンポーネントの有効性とモジュールの様々なアーキテクチャへの適応性を確認している。
有限状態原理を深層学習と統合することにより、NFSMは、一貫性のある長期的手術ビデオ分析への堅牢な経路を提供する。
関連論文リスト
- Implicit Neural Differential Model for Spatiotemporal Dynamics [5.1854032131971195]
In-PiNDiffは、安定時間力学のための新しい暗黙の物理積分型ニューラル微分可能解法である。
深い平衡モデルにインスパイアされたIm-PiNDiffは、暗黙の固定点層を用いて状態を前進させ、堅牢な長期シミュレーションを可能にする。
Im-PiNDiffは優れた予測性能、数値安定性の向上、メモリとコストの大幅な削減を実現している。
論文 参考訳(メタデータ) (2025-04-03T04:07:18Z) - Efficient Transformed Gaussian Process State-Space Models for Non-Stationary High-Dimensional Dynamical Systems [49.819436680336786]
本研究では,高次元非定常力学系のスケーラブルかつ柔軟なモデリングのための効率的な変換ガウス過程状態空間モデル(ETGPSSM)を提案する。
具体的には、ETGPSSMは、単一の共有GPと入力依存の正規化フローを統合し、複雑な非定常遷移ダイナミクスを捉える前に、表現的な暗黙のプロセスを生成する。
ETGPSSMは、計算効率と精度の観点から、既存のGPSSMとニューラルネットワークベースのSSMより優れています。
論文 参考訳(メタデータ) (2025-03-24T03:19:45Z) - TS-LIF: A Temporal Segment Spiking Neuron Network for Time Series Forecasting [27.91825785119938]
Spiking Neural Networks(SNN)は、時系列予測のためのデータ処理に、有望で生物学的にインスパイアされたアプローチを提供する。
本稿では,デュアルコンパートメントアーキテクチャを特徴とするテンポラルリーキーセグメント統合とファイアモデルを提案する。
実験の結果,TS-LIFは時系列予測において従来のSNNよりも優れていた。
論文 参考訳(メタデータ) (2025-03-07T03:06:21Z) - PreAdaptFWI: Pretrained-Based Adaptive Residual Learning for Full-Waveform Inversion Without Dataset Dependency [8.719356558714246]
フルウェーブフォーム・インバージョン(Full-waveform Inversion、FWI)は、地震データを用いて地下媒体の物理パラメータを反転させる手法である。
異常な性質のため、FWIは局所的なミニマに閉じ込められやすい。
ニューラルネットワークとFWIを組み合わせることで、インバージョンプロセスの安定化が試みられている。
論文 参考訳(メタデータ) (2025-02-17T15:30:17Z) - Input layer regularization and automated regularization hyperparameter tuning for myelin water estimation using deep learning [1.9594393134885413]
そこで本研究では,脳内ミエリン水分率(MWF)を2次解析により推定する手法として,古典的正規化とデータ拡張を組み合わせた新しいディープラーニング手法を提案する。
特に,MWF推定に使用される信号モデルの1つである双指数モデルについて検討する。
論文 参考訳(メタデータ) (2025-01-30T00:56:28Z) - MASSFormer: Mobility-Aware Spectrum Sensing using Transformer-Driven
Tiered Structure [3.6194127685460553]
モビリティを意識したトランスフォーマー駆動構造(MASSFormer)をベースとした協調センシング手法を開発した。
本稿では,モバイルプライマリユーザ(PU)とセカンダリユーザ(SU)の動的シナリオについて考察する。
提案手法は, 堅牢性を示すために, 不完全な報告チャネルのシナリオ下で試験される。
論文 参考訳(メタデータ) (2024-09-26T05:25:25Z) - Pediatric TSC-Related Epilepsy Classification from Clinical MR Images Using Quantum Neural Network [17.788579893962492]
本研究では,従来の畳み込みニューラルネットワークと量子ニューラルネットワークをシームレスに統合した新しいディープラーニングモデルQResNetを紹介する。
TSCMRI画像分類において,従来の3D-ResNetモデルと比較してQResNetの優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-08T14:11:06Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Surgical Temporal Action-aware Network with Sequence Regularization for
Phase Recognition [28.52533700429284]
本稿では,STAR-Netと命名されたシークエンス正規化を施した手術時行動認識ネットワークを提案する。
MS-STAモジュールは、視覚的特徴と2Dネットワークを犠牲にして、手術行動の空間的および時間的知識を統合する。
我々のSTAR-Net with MS-STA and DSR can exploit of visual features of surgery action with effective regularization, which to the excellent performance of surgery phase recognition。
論文 参考訳(メタデータ) (2023-11-21T13:43:16Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z) - Reconstructing high-order sequence features of dynamic functional
connectivity networks based on diversified covert attention patterns for
Alzheimer's disease classification [22.57052592437276]
我々はトランスフォーマーのコアモジュールである自己注意機構を導入し、多彩な注意パターンをモデル化し、これらのパターンを適用してdFCNの高次シーケンス特性を再構築する。
本研究では,局所的時間的特徴とシーケンス変化パターンをキャプチャするCRNの利点と,大域的および高次的相関特徴の学習におけるトランスフォーマーを組み合わせた,多角化注意パターンに基づくCRN手法DCA-CRNを提案する。
論文 参考訳(メタデータ) (2022-11-19T02:13:21Z) - Machine Learning model for gas-liquid interface reconstruction in CFD
numerical simulations [59.84561168501493]
流体の体積(VoF)法は多相流シミュレーションにおいて2つの不混和性流体間の界面を追跡・見つけるために広く用いられている。
VoF法の主なボトルネックは、計算コストが高く、非構造化グリッド上での精度が低いため、インタフェース再構成のステップである。
一般的な非構造化メッシュ上でのインタフェース再構築を高速化するために,グラフニューラルネットワーク(GNN)に基づく機械学習拡張VoF手法を提案する。
論文 参考訳(メタデータ) (2022-07-12T17:07:46Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Influence Estimation and Maximization via Neural Mean-Field Dynamics [60.91291234832546]
本稿では,ニューラル平均場(NMF)ダイナミクスを用いた新しい学習フレームワークを提案する。
我々のフレームワークは拡散ネットワークの構造とノード感染確率の進化を同時に学習することができる。
論文 参考訳(メタデータ) (2021-06-03T00:02:05Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Aggregating Long-Term Context for Learning Laparoscopic and
Robot-Assisted Surgical Workflows [40.48632897750319]
本稿では,タスク固有のネットワーク表現を利用した時間的ネットワーク構造を提案する。
腹腔鏡下胆嚢摘出術を施行した。
論文 参考訳(メタデータ) (2020-09-01T20:29:14Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - TeCNO: Surgical Phase Recognition with Multi-Stage Temporal
Convolutional Networks [43.95869213955351]
外科的位相認識のための階層的予測補正を行う多段階時間畳み込みネットワーク(MS-TCN)を提案する。
本手法は腹腔鏡下胆嚢摘出術ビデオの2つのデータセットに対して,追加の外科的ツール情報を用いずに徹底的に評価した。
論文 参考訳(メタデータ) (2020-03-24T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。