論文の概要: Where are they looking in the operating room?
- arxiv url: http://arxiv.org/abs/2604.20574v1
- Date: Wed, 22 Apr 2026 13:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.155597
- Title: Where are they looking in the operating room?
- Title(参考訳): 彼らは手術室でどこを見ていますか。
- Authors: Keqi Chen, Séraphin Baributsa, Lilien Schewski, Vinkle Srivastav, Didier Mutter, Guido Beldi, Sandra Keller, Nicolas Padoy,
- Abstract要約: 手術領域に視線追跡の概念を導入し,臨床的役割,外科的フェーズ,チームコミュニケーションを理解する大きな可能性を示した。
本稿では, 視線追跡モデルを用いた臨床的役割予測, 外科的位相認識, チームコミュニケーション検出のための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 10.583550132112924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: Gaze-following, the task of inferring where individuals are looking, has been widely studied in computer vision, advancing research in visual attention modeling, social scene understanding, and human-robot interaction. However, gaze-following has never been explored in the operating room (OR), a complex, high-stakes environment where visual attention plays an important role in surgical workflow analysis. In this work, we introduce the concept of gaze-following to the surgical domain, and demonstrate its great potential for understanding clinical roles, surgical phases, and team communications in the OR. Methods: We extend the 4D-OR dataset with gaze-following annotations, and extend the Team-OR dataset with gaze-following and a new team communication activity annotations. Then, we propose novel approaches to address clinical role prediction, surgical phase recognition, and team communication detection using a gaze-following model. For role and phase recognition, we propose a gaze heatmap-based approach that uses gaze predictions solely; for team communication detection, we train a spatial-temporal model in a self-supervised way that encodes gaze-based clip features, and then feed the features into a temporal activity detection model. Results: Experimental results on the 4D-OR and Team-OR datasets demonstrate that our approach achieves state-of-the-art performance on all downstream tasks. Quantitatively, our approach obtains F1 scores of 0.92 for clinical role prediction and 0.95 for surgical phase recognition. Furthermore, it significantly outperforms existing baselines in team communication detection, improving previous best performances by over 30%. Conclusion: We introduce gaze-following in the OR as a novel research direction in surgical data science, highlighting its great potential to advance surgical workflow analysis in computer-assisted interventions.
- Abstract(参考訳): 目的: 個人が見ている場所を推測するタスクであるGaze-followingは、コンピュータビジョンにおいて広く研究され、視覚的アテンションモデリング、社会的シーン理解、人間とロボットの相互作用の研究が進められている。
しかし、視線追跡は、外科的ワークフロー分析において視覚的注意が重要な役割を果たす複雑なハイテイク環境である手術室(OR)では決して探索されていない。
本研究では,手術領域における視線追跡の概念を導入し,臨床的役割,外科的段階,およびORにおけるチームコミュニケーションを理解する大きな可能性を示す。
メソッド: 注: 注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:4D-ORのデータセットを注:注:注:注:注:注:注:注:注:注:注:注:注:注: 注:注: 注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:注:
そこで我々は,視線追跡モデルを用いた臨床的役割予測,外科的位相認識,チームコミュニケーション検出のための新しいアプローチを提案する。
チーム通信検出では,視線に基づく映像の特徴を符号化する自己教師付き方法で空間時間モデルを訓練し,その特徴を時間的活動検出モデルに入力する。
結果:4D-ORデータセットとTeam-ORデータセットの実験結果から,本手法が下流のタスクすべてにおいて最先端のパフォーマンスを実現することを示す。
臨床的役割予測ではF1スコアが0.92,外科的位相認識では0.95であった。
さらに、チームコミュニケーション検出における既存のベースラインを著しく上回り、以前の最高のパフォーマンスを30%以上改善します。
結論: 外科的データ科学における新たな研究の方向性として, ORの視線追跡を導入する。
関連論文リスト
- Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room [2.508931612863749]
ORのマルチビューカメラシステムによって捉えられた100時間以上の手術ビデオを,Team-ORと呼ばれる実際の外科手術のデータセットを生成する。
このデータセットには、33のタイムアウトと22のStOP?-protocolアクティビティの時間アノテーションが含まれている。
次に、シーンコンテキストとアクション特徴の両方を符号化し、効率的なニューラルネットワークモデルを用いて結果を出力するグループアクティビティ検出手法を提案する。
論文 参考訳(メタデータ) (2025-02-12T10:59:45Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [47.47211257890948]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Phase-Specific Augmented Reality Guidance for Microscopic Cataract
Surgery Using Long-Short Spatiotemporal Aggregation Transformer [14.568834378003707]
乳化白内障手術(英: Phaemulsification cataract surgery, PCS)は、外科顕微鏡を用いた外科手術である。
PCS誘導システムは、手術用顕微鏡映像から貴重な情報を抽出し、熟練度を高める。
既存のPCSガイダンスシステムでは、位相特異なガイダンスに悩まされ、冗長な視覚情報に繋がる。
本稿では,認識された手術段階に対応するAR情報を提供する,新しい位相特異的拡張現実(AR)誘導システムを提案する。
論文 参考訳(メタデータ) (2023-09-11T02:56:56Z) - More Than Meets the Eye: Analyzing Anesthesiologists' Visual Attention
in the Operating Room Using Deep Learning Models [0.0]
現在、ほとんどの研究は、麻酔科医の視覚パターンを分析するためにウェアラブルアイトラッキング技術を採用している。
モニタ搭載ウェブカメラを処理する深層学習モデルを用いた新しい視線追跡手法を用いて,連続した行動データを収集した。
我々は,不確実な期間のVA分布と,活動期に関連するパターン,あるいは致命的,予期せぬ出来事におけるVA分布を区別した。
論文 参考訳(メタデータ) (2023-08-10T11:12:04Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - A Deep Learning Approach for the Segmentation of Electroencephalography
Data in Eye Tracking Applications [56.458448869572294]
脳波データの時系列セグメンテーションのための新しいフレームワークDETRtimeを紹介する。
エンドツーエンドのディープラーニングベースのフレームワークは、コンピュータビジョンの進歩を前面に立たせています。
我々のモデルは脳波睡眠ステージセグメンテーションのタスクにおいてよく一般化される。
論文 参考訳(メタデータ) (2022-06-17T10:17:24Z) - 4D-OR: Semantic Scene Graphs for OR Domain Modeling [72.1320671045942]
本稿では,手術シーンを記述・要約するために意味シーングラフ(SSG)を提案する。
シーングラフのノードは、医療スタッフ、患者、医療機器など、部屋内のさまざまなアクターやオブジェクトを表す。
人工膝置換手術を10回行った4D-ORデータセットを作成した。
論文 参考訳(メタデータ) (2022-03-22T17:59:45Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。