論文の概要: Spatial-ORMLLM: Improve Spatial Relation Understanding in the Operating Room with Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2508.08199v1
- Date: Mon, 11 Aug 2025 17:17:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.232481
- Title: Spatial-ORMLLM: Improve Spatial Relation Understanding in the Operating Room with Multimodal Large Language Model
- Title(参考訳): 空間ORMLLM:多モーダル大言語モデルを用いた手術室における空間関係理解の改善
- Authors: Peiqi He, Zhenhao Zhang, Yixiang Zhang, Xiongjun Zhao, Shaoliang Peng,
- Abstract要約: 空間ORMLLMは手術室における3次元空間推論のための視覚言語モデルである。
推定アルゴリズムにより抽出された3次元空間知識の豊富な2次元モダリティ入力を組み込む。
専門家のアノテーションやセンサー入力を使わずに、堅牢な3Dシーン推論を提供する。
- 参考スコア(独自算出の注目度): 1.8302608976873713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise spatial modeling in the operating room (OR) is foundational to many clinical tasks, supporting intraoperative awareness, hazard avoidance, and surgical decision-making. While existing approaches leverage large-scale multimodal datasets for latent-space alignment to implicitly learn spatial relationships, they overlook the 3D capabilities of MLLMs. However, this approach raises two issues: (1) Operating rooms typically lack multiple video and audio sensors, making multimodal 3D data difficult to obtain; (2) Training solely on readily available 2D data fails to capture fine-grained details in complex scenes. To address this gap, we introduce Spatial-ORMLLM, the first large vision-language model for 3D spatial reasoning in operating rooms using only RGB modality to infer volumetric and semantic cues, enabling downstream medical tasks with detailed and holistic spatial context. Spatial-ORMLLM incorporates a Spatial-Enhanced Feature Fusion Block, which integrates 2D modality inputs with rich 3D spatial knowledge extracted by the estimation algorithm and then feeds the combined features into the visual tower. By employing a unified end-to-end MLLM framework, it combines powerful spatial features with textual features to deliver robust 3D scene reasoning without any additional expert annotations or sensor inputs. Experiments on multiple benchmark clinical datasets demonstrate that Spatial-ORMLLM achieves state-of-the-art performance and generalizes robustly to previously unseen surgical scenarios and downstream tasks.
- Abstract(参考訳): 手術室 (OR) における精密空間モデリングは, 術中意識, 危険回避, 外科的意思決定を支援する多くの臨床作業の基礎となる。
既存のアプローチでは、潜在空間アライメントのための大規模マルチモーダルデータセットを活用して空間関係を暗黙的に学習する一方で、MLLMの3D機能を見落としている。
しかし,本手法では,(1)複数の映像・音声センサが欠如しており,マルチモーダルな3Dデータを得るのが困難である,(2)複雑なシーンにおいて,容易に利用できる2Dデータのみを訓練することが困難である,という2つの問題を提起する。
このギャップに対処するため,手術室における3次元空間推論のための最初の大規模視覚言語モデルであるSpatial-ORMLLMを導入する。
空間ORMLLMには空間拡張機能融合ブロックが組み込まれており、このブロックは2次元モード入力と推定アルゴリズムによって抽出されたリッチな3次元空間知識を統合し、合成された特徴を視覚塔に供給する。
エンドツーエンドのMLLMフレームワークを統一することにより、強力な空間的特徴とテキスト的特徴を組み合わせることで、専門家のアノテーションやセンサー入力を必要とせずに、堅牢な3Dシーン推論を実現する。
複数のベンチマーク臨床データセットの実験により、Spatial-ORMLLMは最先端のパフォーマンスを達成し、これまで見つからなかった外科的シナリオや下流のタスクに対して堅牢に一般化することを示した。
関連論文リスト
- Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D [32.547597353581594]
本研究では,3次元地上構造を持つシーンデータ上に構築された新しい2次元空間データ生成およびアノテーションパイプラインを提案する。
複数の公開データセットにまたがって数千のシーンから生成される大規模データセットであるSPAR-7Mを構築した。
さらに,空間能力をより包括的に評価するためのベンチマークであるSPAR-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-29T04:51:50Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。