論文の概要: EgoExOR: An Ego-Exo-Centric Operating Room Dataset for Surgical Activity Understanding
- arxiv url: http://arxiv.org/abs/2505.24287v1
- Date: Fri, 30 May 2025 07:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.821618
- Title: EgoExOR: An Ego-Exo-Centric Operating Room Dataset for Surgical Activity Understanding
- Title(参考訳): EgoExOR: 手術活動理解のためのEgo-Exo-Centric Operating Room Dataset
- Authors: Ege Özsoy, Arda Mamur, Felix Tristram, Chantal Pellegrini, Magdalena Wysocki, Benjamin Busam, Nassir Navab,
- Abstract要約: EgoExORは、ファーストパーソンとサードパーソンの視点を融合する最初のオペレーティングルーム(OR)データセットである。
それは、ウェアラブルグラスからの自我中心データ(RGB、視線、ハンドトラッキング、オーディオ)、RGB-Dカメラからの遠心的RGBと奥行き、そして超音波画像を統合する。
2つの応用された最先端モデルの手術シーングラフ生成性能を評価する。
- 参考スコア(独自算出の注目度): 43.66860935790616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Operating rooms (ORs) demand precise coordination among surgeons, nurses, and equipment in a fast-paced, occlusion-heavy environment, necessitating advanced perception models to enhance safety and efficiency. Existing datasets either provide partial egocentric views or sparse exocentric multi-view context, but do not explore the comprehensive combination of both. We introduce EgoExOR, the first OR dataset and accompanying benchmark to fuse first-person and third-person perspectives. Spanning 94 minutes (84,553 frames at 15 FPS) of two emulated spine procedures, Ultrasound-Guided Needle Insertion and Minimally Invasive Spine Surgery, EgoExOR integrates egocentric data (RGB, gaze, hand tracking, audio) from wearable glasses, exocentric RGB and depth from RGB-D cameras, and ultrasound imagery. Its detailed scene graph annotations, covering 36 entities and 22 relations (568,235 triplets), enable robust modeling of clinical interactions, supporting tasks like action recognition and human-centric perception. We evaluate the surgical scene graph generation performance of two adapted state-of-the-art models and offer a new baseline that explicitly leverages EgoExOR's multimodal and multi-perspective signals. This new dataset and benchmark set a new foundation for OR perception, offering a rich, multimodal resource for next-generation clinical perception.
- Abstract(参考訳): 手術室(OR)は、安全と効率を高めるために高度な知覚モデルを必要とする、急冷で閉塞性の高い環境で、外科医、看護師、機器の正確な調整を要求する。
既存のデータセットは、部分的なエゴセントリックなビューまたはスパースなエゴセントリックなマルチビューコンテキストを提供するが、両者の包括的な組み合わせを探索しない。
EgoExORは、最初のORデータセットであり、ファーストパーソンとサードパーソンの視点を融合するベンチマークである。
Spanning 94分 (84,553 frames at 15 FPS) of two emulated spine procedure, Ultrasound-Guided Needle Insertion and Minimally Invasive Spine Surgery, EgoExOR integrates egocentric data (RGB, gaze, hand tracking, audio) from wearable glasses, exocentric RGB and depth from RGB-D camera, and speech images。
36のエンティティと22のリレーション(568,235のトリプレット)をカバーする、詳細なシーングラフアノテーションは、臨床相互作用の堅牢なモデリングを可能にし、アクション認識や人間中心の知覚といったタスクをサポートする。
EgoExORのマルチモーダル・マルチパースペクティブ・シグナルを明示的に活用する新たなベースラインを提供する。
この新しいデータセットとベンチマークは、OR知覚の新しい基盤を確立し、次世代臨床知覚のためのリッチでマルチモーダルなリソースを提供する。
関連論文リスト
- EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy [26.132684811981143]
VLA(Vision-Language-Action)モデルは、視覚知覚、言語接地、モーションプランニングをエンドツーエンドのフレームワークに統合する。
EndoVLAは,(1)ポリープ追跡,(2)異常粘膜領域の脱線・追尾,(3)周囲切削時の円形マーカーへの付着の3つのコアタスクを実行する。
論文 参考訳(メタデータ) (2025-05-21T07:35:00Z) - Towards user-centered interactive medical image segmentation in VR with an assistive AI agent [0.5578116134031106]
本稿では,3次元医療概念のローカライズ,セグメンテーション,可視化を支援する,医療用VR用対話型AIエージェントSAMIRAを提案する。
このシステムは、患者固有の解剖学的理解を高めるために、セグメント化された病理の真の3次元可視化もサポートする。
ユーザスタディでは、高いユーザビリティスコア(SUS=90.0$pm$9.0)、全体のタスク負荷の低減、提案されたVRシステムのガイダンスの強力なサポートが示された。
論文 参考訳(メタデータ) (2025-05-12T03:47:05Z) - MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments [49.45034796115852]
手術室(オペレーティングルーム、英: Operating room, OR)は、医療スタッフ、工具、機器間の相互作用を正確に理解する必要がある複雑な高所環境である。
現在のデータセットは、スケール、リアリズムにおいて不足しており、ORシーンの性質を捉えておらず、ORモデリングにおけるマルチモーダルを制限する。
本稿では,現実的で大規模なマルチモーダルORデータセットであるMM-ORと,マルチモーダルなシーングラフ生成を実現するための最初のデータセットを紹介する。
論文 参考訳(メタデータ) (2025-03-04T13:00:52Z) - Surgical Triplet Recognition via Diffusion Model [59.50938852117371]
外科的三重項認識は、次世代のコンテキスト対応手術室を実現するために必要不可欠なビルディングブロックである。
拡散モデルを用いた外科的三重項認識のための新しい生成フレームワークであるDifftを提案する。
CholecT45とColecT50データセットの実験は、手術用三重項認識のための新しい最先端性能を達成する上で、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-06-19T04:43:41Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Rendezvous: Attention Mechanisms for the Recognition of Surgical Action
Triplets in Endoscopic Videos [12.725586100227337]
アクショントリプレット認識は、外科的活動について、真にきめ細かな総合的な情報を提供することを目的とした唯一の方法である。
手術ビデオから直接三つ子を認識できる新しいモデルであるRendezvous(RDV)を紹介した。
提案したRDVモデルは,このデータセットの最先端手法と比較して,三重項予測のmAPを9%以上改善する。
論文 参考訳(メタデータ) (2021-09-07T17:52:52Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。