論文の概要: Event-Level Detection of Surgical Instrument Handovers in Videos with Interpretable Vision Models
- arxiv url: http://arxiv.org/abs/2604.07577v1
- Date: Wed, 08 Apr 2026 20:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.54896
- Title: Event-Level Detection of Surgical Instrument Handovers in Videos with Interpretable Vision Models
- Title(参考訳): 解釈可能な視覚モデルを用いたビデオにおける手術器具ハンドオーバの事象レベル検出
- Authors: Katerina Katsarou, George Zountsas, Karam Tomotaki-Dawoud, Alexander Ehrenhoefer, Paul Chojecki, David Przewozny, Igor Maximilian Sauer, Amira Mouakher, Sebastian Bosse,
- Abstract要約: 手術ビデオにおける機器ハンドオーバの事象レベルの検出と方向分類のための視覚フレームワークを提案する。
統一マルチタスク定式化は、ハンドオーバの発生と相互作用方向を共同で予測する。
腎臓移植術のデータセットに関する実験は、強い性能を示す。
- 参考スコア(独自算出の注目度): 32.17113044802459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable monitoring of surgical instrument exchanges is essential for maintaining procedural efficiency and patient safety in the operating room. Automatic detection of instrument handovers in intraoperative video remains challenging due to frequent occlusions, background clutter, and the temporally evolving nature of interaction events. We propose a spatiotemporal vision framework for event-level detection and direction classification of surgical instrument handovers in surgical videos. The model combines a Vision Transformer (ViT) backbone for spatial feature extraction with a unidirectional Long Short-Term Memory (LSTM) network for temporal aggregation. A unified multi-task formulation jointly predicts handover occurrence and interaction direction, enabling consistent modeling of transfer dynamics while avoiding error propagation typical of cascaded pipelines. Predicted confidence scores form a temporal signal over the video, from which discrete handover events are identified via peak detection. Experiments on a dataset of kidney transplant procedures demonstrate strong performance, achieving an F1-score of 0.84 for handover detection and a mean F1-score of 0.72 for direction classification, outperforming both a single-task variant and a VideoMamba-based baseline for direction prediction while maintaining comparable detection performance. To improve interpretability, we employ Layer-CAM attribution to visualize spatial regions driving model decisions, highlighting hand-instrument interaction cues.
- Abstract(参考訳): 手術器具交換の信頼性の高いモニタリングは,手術室における手続き効率と患者の安全を維持するために不可欠である。
術中ビデオにおける機器ハンドオーバの自動検出は, 頻繁な閉塞, 背景乱れ, 時間的に変化する相互作用現象により, 依然として困難である。
本稿では,手術用機器ハンドオーバの事象レベルの検出と方向分類のための時空間視覚フレームワークを提案する。
このモデルは、空間的特徴抽出のためのビジョントランスフォーマー(ViT)バックボーンと、時間的アグリゲーションのための一方向長短記憶(LSTM)ネットワークを組み合わせたものである。
統合マルチタスクの定式化は、ハンドオーバの発生と相互作用の方向を共同で予測し、カスケードパイプラインの典型的なエラー伝搬を回避しつつ、転送ダイナミクスの一貫したモデリングを可能にする。
予測された信頼スコアはビデオ上の時間信号を形成し、そこからピーク検出によって個別のハンドオーバイベントが識別される。
腎移植術のデータセットを用いた実験では, ハンドオーバ検出のためのF1スコア0.84, 方向分類のためのF1スコア0.72を達成し, 同一タスクの変種とビデオマンバベースのベースラインの双方を上回り, 同等の検出性能を維持しながら, 方向予測のためのF1スコア0.72を達成している。
解釈性を向上させるため,我々は空間領域の可視化にLayer-CAM属性を用いる。
関連論文リスト
- Data-centric Design of Learning-based Surgical Gaze Perception Models in Multi-Task Simulation [16.689550165317765]
ロボットによる侵襲的最小侵襲手術(RMIS)では、触覚フィードバックと奥行きの手がかりが専門的な視覚的知覚に依存している。
本研究では,ダ・ヴィンチ・シムNowシミュレータ上で4つのドリルで収集した,アクティブ・パッシブ・マルチタスク・サーチ・ギャグ・データセットについて紹介する。
我々は、視線組織におけるスキルとモダリティに依存した差異を定量化し、手術監督のための受動的視線の置換性を評価する。
論文 参考訳(メタデータ) (2026-02-09T22:52:59Z) - Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection [12.100563798908777]
コンピュータビジョン研究にはビデオ異常検出(VAD)が不可欠である。
既存のVADメソッドは、再構築ベースのフレームワークまたは予測ベースのフレームワークを使用する。
ポーズに基づくビデオ異常検出に対処し、Dual Conditioned Motion Diffusionと呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-23T01:31:39Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Automated Mobility Context Detection with Inertial Signals [7.71058263701836]
本研究の主な目的は,日常の運動機能の遠隔監視のためのコンテキスト検出について検討することである。
本研究の目的は、ウェアラブル加速度計でサンプリングされた慣性信号が、歩行関連活動を屋内または屋外に分類するための信頼性の高い情報を提供するかを理解することである。
論文 参考訳(メタデータ) (2022-05-16T09:34:43Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。