論文の概要: MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments
- arxiv url: http://arxiv.org/abs/2503.02579v1
- Date: Tue, 04 Mar 2025 13:00:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:46.606758
- Title: MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments
- Title(参考訳): MM-OR:高強度手術環境のセマンティック理解のための大規模マルチモーダル手術室データセット
- Authors: Ege Özsoy, Chantal Pellegrini, Tobias Czempiel, Felix Tristram, Kun Yuan, David Bani-Harouni, Ulrich Eck, Benjamin Busam, Matthias Keicher, Nassir Navab,
- Abstract要約: 手術室(オペレーティングルーム、英: Operating room, OR)は、医療スタッフ、工具、機器間の相互作用を正確に理解する必要がある複雑な高所環境である。
現在のデータセットは、スケール、リアリズムにおいて不足しており、ORシーンの性質を捉えておらず、ORモデリングにおけるマルチモーダルを制限する。
本稿では,現実的で大規模なマルチモーダルORデータセットであるMM-ORと,マルチモーダルなシーングラフ生成を実現するための最初のデータセットを紹介する。
- 参考スコア(独自算出の注目度): 49.45034796115852
- License:
- Abstract: Operating rooms (ORs) are complex, high-stakes environments requiring precise understanding of interactions among medical staff, tools, and equipment for enhancing surgical assistance, situational awareness, and patient safety. Current datasets fall short in scale, realism and do not capture the multimodal nature of OR scenes, limiting progress in OR modeling. To this end, we introduce MM-OR, a realistic and large-scale multimodal spatiotemporal OR dataset, and the first dataset to enable multimodal scene graph generation. MM-OR captures comprehensive OR scenes containing RGB-D data, detail views, audio, speech transcripts, robotic logs, and tracking data and is annotated with panoptic segmentations, semantic scene graphs, and downstream task labels. Further, we propose MM2SG, the first multimodal large vision-language model for scene graph generation, and through extensive experiments, demonstrate its ability to effectively leverage multimodal inputs. Together, MM-OR and MM2SG establish a new benchmark for holistic OR understanding, and open the path towards multimodal scene analysis in complex, high-stakes environments. Our code, and data is available at https://github.com/egeozsoy/MM-OR.
- Abstract(参考訳): 手術室(オペレーティングルーム、英: Operating room, OR)は、外科的補助、状況認識、患者の安全性を高めるための医療スタッフ、道具、機器間の相互作用を正確に理解する必要のある複雑で高度な環境である。
現在のデータセットは、スケール、リアリズムにおいて不足しており、ORシーンのマルチモーダルな性質を捉えておらず、ORモデリングの進歩を制限する。
この目的のために,MM-OR,リアルタイムかつ大規模マルチモーダル時空間ORデータセット,およびマルチモーダルシーングラフ生成を可能にする最初のデータセットを紹介する。
MM-ORは、RGB-Dデータ、ディテールビュー、オーディオ、音声書き起こし、ロボットログ、追跡データを含む包括的なORシーンをキャプチャし、汎視的セグメンテーション、セマンティックシーングラフ、下流タスクラベルで注釈付けされている。
さらに,シーングラフ生成のための最初のマルチモーダル大規模視覚言語モデルMM2SGを提案する。
MM-ORとMM2SGは共に、全体論的OR理解のための新しいベンチマークを確立し、複雑で高い環境下でのマルチモーダルシーン分析への道を開く。
私たちのコードとデータはhttps://github.com/egeozsoy/MM-OR.orgで公開されています。
関連論文リスト
- A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement Prediction [5.73110247142357]
現実的なアセンブリと分解タスクをキャプチャする新しいデータセットを提案する。
データセットは、22セッションから収集されたマルチビューRGB、深さ、慣性測定ユニット(IMU)データを含み、未トリミングビデオの290分に相当する。
提案手法は, 動的産業環境におけるオペレータのパフォーマンス監視のための堅牢なソリューションとして, エンゲージメント状態の認識精度を向上させる。
論文 参考訳(メタデータ) (2025-01-10T12:57:33Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Open-World Human-Object Interaction Detection via Multi-modal Prompts [26.355054079885463]
MP-HOIは多モードのPromptベースの強力なHOI検出器であり、オープンセットの一般化のためのテキスト記述と、説明の曖昧さを扱う視覚的見本の両方を活用するように設計されている。
MP-HOIは一般のHOI検出器として機能し、既存の専門家モデルのHOI語彙を30倍以上上回った。
論文 参考訳(メタデータ) (2024-06-11T13:01:45Z) - MMEarth: Exploring Multi-Modal Pretext Tasks For Geospatial Representation Learning [9.540487697801531]
MMEarthは、グローバルスケールでの多様なマルチモーダル事前トレーニングデータセットである。
光衛星画像の汎用表現を学習するために,MP-MAE(Multi-Pretext Masked Autoencoder)アプローチを提案する。
論文 参考訳(メタデータ) (2024-05-04T23:16:48Z) - Multimodal Graph Learning for Generative Tasks [89.44810441463652]
マルチモーダル学習は、複数のデータモダリティを組み合わせることで、モデルが利用できるデータの種類と複雑さを広げます。
本稿では,マルチモーダルグラフ学習(MMGL)を提案する。
論文 参考訳(メタデータ) (2023-10-11T13:25:03Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal
Reasoning in Dynamic Operating Rooms [39.11134330259464]
手術室(OR)の全体モデリングは難しいが必須課題である。
本稿では,過去の時間ステップのシーングラフが時間的表現として機能し,現在の予測を導くメモリシーングラフを紹介する。
我々は、私たちの軽量メモリシーングラフの時間情報をポイントクラウドや画像からの視覚情報とインテリジェントに融合するエンドツーエンドアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-23T14:26:16Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。