論文の概要: MoSFormer: Augmenting Temporal Context with Memory of Surgery for Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2503.00695v1
- Date: Sun, 02 Mar 2025 02:26:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:59.954084
- Title: MoSFormer: Augmenting Temporal Context with Memory of Surgery for Surgical Phase Recognition
- Title(参考訳): MoSFormer:外科的位相認識のための手術記憶による時間文脈の増強
- Authors: Hao Ding, Xu Lian, Mathias Unberath,
- Abstract要約: メモリ・オブ・サーチ (Memory of Surgery, MOS) は、意味論的解釈可能な長期手術の歴史と短期的印象の両方を取り入れることで、時間的モデリングを強化する枠組みである。
MoSFormerは、複数のベンチマークで最先端のパフォーマンスをデモする。
- 参考スコア(独自算出の注目度): 6.913838841605972
- License:
- Abstract: Surgical phase recognition from video enables various downstream applications. Transformer-based sliding window approaches have set the state-of-the-art by capturing rich spatial-temporal features. However, while transformers can theoretically handle arbitrary-length sequences, in practice they are limited by memory and compute constraints, resulting in fixed context windows that struggle with maintaining temporal consistency across lengthy surgical procedures. This often leads to fragmented predictions and limited procedure-level understanding. To address these challenges, we propose Memory of Surgery (MoS), a framework that enriches temporal modeling by incorporating both semantic interpretable long-term surgical history and short-term impressions. MoSFormer, our enhanced transformer architecture, integrates MoS using a carefully designed encoding and fusion mechanism. We further introduce step filtering to refine history representation and develop a memory caching pipeline to improve training and inference stability, mitigating shortcut learning and overfitting. MoSFormer demonstrates state-of-the-art performance on multiple benchmarks. On the Challenging BernBypass70 benchmark, it attains 88.0 video-level accuracy and phase-level metrics of 70.7 precision, 68.7 recall, and 66.3 F1 score, outperforming its baseline with 2.1 video-level accuracy and phase-level metrics of 4.6 precision, 3.6 recall, and 3.8 F1 score. Further studies confirms the individual and combined benefits of long-term and short-term memory components through ablation and counterfactual inference. Qualitative results shows improved temporal consistency. The augmented temporal context enables procedure-level understanding, paving the way for more comprehensive surgical video analysis.
- Abstract(参考訳): ビデオからの外科的位相認識は、様々な下流の応用を可能にする。
トランスフォーマーベースのスライディングウインドウアプローチは、リッチな時空間特徴をキャプチャすることで最先端の手法を確立している。
しかし、変圧器は理論上任意の長さのシーケンスを処理できるが、実際にはメモリと計算の制約によって制限されるため、時間的整合性を維持するのに苦労する固定されたコンテキストウィンドウが生じる。
これはしばしば断片化された予測とプロシージャレベルの理解に繋がる。
これらの課題に対処するために,意味論的解釈可能な長期手術履歴と短期的印象の両方を取り入れた時間的モデリングのフレームワークであるMemory of Surgery (MoS)を提案する。
拡張トランスアーキテクチャであるMoSFormerは、慎重に設計された符号化と融合機構を用いてMoSを統合する。
さらに、歴史表現を洗練するためのステップフィルタリングを導入し、トレーニングと推論安定性を改善し、ショートカット学習とオーバーフィッティングを緩和するメモリキャッシュパイプラインを開発します。
MoSFormerは、複数のベンチマークで最先端のパフォーマンスをデモする。
Challenging BernBypass70ベンチマークでは、ビデオレベルの精度と位相レベルの70.7の精度、68.7のリコール、66.3のF1スコアが88.0に達し、ビデオレベルの精度2.1、位相レベルのメトリクス4.6の精度、3.6のリコール、3.8のF1スコアを上回った。
さらに、アブレーションと反事実推論を通じて、長期記憶と短期記憶の個々の利点と組み合わせた利点を検証した。
質的な結果から時間的整合性が向上した。
拡張時間的コンテキストは、手順レベルの理解を可能にし、より包括的な外科的ビデオ解析の道を開く。
関連論文リスト
- MuST: Multi-Scale Transformers for Surgical Phase Recognition [40.047145788604716]
手術ビデオにおける位相認識は,コンピュータ支援手術システムの強化に不可欠である。
既存の手法は、動的外科的位相を特定するためにビデオ解析のために固定時間窓に頼っていることが多い。
手術相認識のためのマルチスケールトランスフォーマー(MuST)を提案する。
論文 参考訳(メタデータ) (2024-07-24T15:38:20Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - SimulLR: Simultaneous Lip Reading Transducer with Attention-Guided
Adaptive Memory [61.44510300515693]
注意誘導型適応メモリを用いた同時唇読解用トランスデューサSimulLRについて検討した。
実験の結果、SimulLRは最先端の非同期手法に比べて9.10倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-08-31T05:54:16Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid
Embedding Aggregation Transformer [57.18185972461453]
本稿では,手術ワークフロー解析トランスフォーマーを初めて導入し,正確な位相認識のための時間的特徴と時間的特徴の無視された補完効果を再考する。
我々のフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。
論文 参考訳(メタデータ) (2021-03-17T15:12:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。