論文の概要: TopoOR: A Unified Topological Scene Representation for the Operating Room
- arxiv url: http://arxiv.org/abs/2603.09466v1
- Date: Tue, 10 Mar 2026 10:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.225344
- Title: TopoOR: A Unified Topological Scene Representation for the Operating Room
- Title(参考訳): TopoOR:オペレーティングルームのための統一トポロジカルシーン
- Authors: Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian,
- Abstract要約: 手術シーングラフは外科手術室(OR)の複雑さを実体の構造とその関連性に抽象化する。
マルチモーダルな手術室を高次構造としてモデル化する新しいパラダイムであるTopoORを紹介する。
また,多様体の構造やモジュラリティに特有な特徴を明示的に保存する高次アテンション機構を提案する。
- 参考スコア(独自算出の注目度): 54.50897207203292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Surgical Scene Graphs abstract the complexity of surgical operating rooms (OR) into a structure of entities and their relations, but existing paradigms suffer from strictly dyadic structural limitations. Frameworks that predominantly rely on pairwise message passing or tokenized sequences flatten the manifold geometry inherent to relational structures and lose structure in the process. We introduce TopoOR, a new paradigm that models multimodal operating rooms as a higher-order structure, innately preserving pairwise and group relationships. By lifting interactions between entities into higher-order topological cells, TopoOR natively models complex dynamics and multimodality present in the OR. This topological representation subsumes traditional scene graphs, thereby offering strictly greater expressivity. We also propose a higher-order attention mechanism that explicitly preserves manifold structure and modality-specific features throughout hierarchical relational attention. In this way, we circumvent combining 3D geometry, audio, and robot kinematics into a single joint latent representation, preserving the precise multimodal structure required for safety-critical reasoning, unlike existing methods. Extensive experiments demonstrate that our approach outperforms traditional graph and LLM-based baselines across sterility breach detection, robot phase prediction, and next-action anticipation
- Abstract(参考訳): 手術シーングラフは外科手術室(OR)の複雑さを実体の構造とその関係に抽象化するが、既存のパラダイムは厳密なDyadic構造上の制限に悩まされている。
ペアワイズメッセージパッシングやトークン化シーケンスに大きく依存するフレームワークは、関係構造に固有の多様体の幾何学をフラットにし、プロセスの構造を失う。
マルチモーダルな手術室を高階構造としてモデル化する新しいパラダイムであるTopoORを導入する。
物質間の相互作用を高次トポロジカル細胞に持ち上げることで、TopoORはORに存在する複雑な力学と多モード性をモデル化する。
このトポロジカル表現は伝統的なシーングラフを仮定し、より厳密な表現性を提供する。
また,高次アテンション機構を提案し,階層的リレーショナルアテンションを通して多様体構造とモダリティ固有の特徴を明示的に保存する。
このようにして、既存の方法とは異なり、安全クリティカルな推論に必要な正確なマルチモーダル構造を保ちながら、3次元幾何学、オーディオ、ロボットキネマティクスを1つのジョイント潜在表現にまとめる。
大規模な実験により、我々のアプローチは、不安定性の検出、ロボット位相予測、および次のアクション予測において、従来のグラフとLCMベースのベースラインよりも優れていることが示された。
関連論文リスト
- Topology of Reasoning: Retrieved Cell Complex-Augmented Generation for Textual Graph Question Answering [13.616604189732262]
Topology-enhanced Retrieval-Augmented Generation (TopoRAG)は、テキストグラフ質問応答のための新しいフレームワークである。
TopoRAGはまずテキストグラフを細胞複合体に上げ、多次元トポロジー構造をモデル化する。
多次元トポロジカル推論機構がこれらの複合体上で動作し、関係情報を伝達する。
論文 参考訳(メタデータ) (2026-02-22T15:44:53Z) - How Many Heads Make an SSM? A Unified Framework for Attention and State Space Models [2.1693096503777003]
我々は、入力依存の効果的な相互作用演算子$W_ij(X)$を介して、幅広いシーケンスマップのクラスを表す統一されたフレームワークを導入する。
我々は、多頭部分解クラスにおいて、ラグ作用素が長さ-n$要求上の$k$次元部分空間にまたがる線形SSMを表現し、$H=k$ヘッドで達成可能であることを示す同値 (Head-Count) 定理を証明した。
論文 参考訳(メタデータ) (2025-12-17T06:15:24Z) - Learning Multi-Order Block Structure in Higher-Order Networks [4.867153093815104]
高次のネットワークは、3つ以上の実体間の相互作用を含む現実世界のシステムをモデル化するのに不可欠である。
最近の単純化である単階モデルでは、一つの親和性パターンが全ての順序の相互作用を制御していると仮定することで、この複雑さを緩和する。
本稿では,マルチオーダーブロック構造を導入することで,この仮定を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-26T12:56:37Z) - CUS-GS: A Compact Unified Structured Gaussian Splatting Framework for Multimodal Scene Representation [16.85102888388904]
CUS-GSはコンパクトな統一型ガウススプティング表現である。
本稿では,アンカーの生育と刈り取りをガイドするための特徴認識重要度評価戦略を提案する。
CUS-GSは6Mパラメータしか使用しない最先端の手法と比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2025-11-22T03:42:49Z) - Assemble Your Crew: Automatic Multi-agent Communication Topology Design via Autoregressive Graph Generation [91.17994756436259]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)は、多様な領域にわたる複雑な問題を扱うための強力なソリューションとして登場した。
既存のアプローチは、事前に定義されたエージェントセットとハードコードされた相互作用構造を持つテンプレートグラフ修正パラダイムに依存しているため、基本的に制限されている。
協調グラフをスクラッチから構築することで、このパラダイムを運用する新しい自己回帰モデルであるARG-Designerを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:17:41Z) - Topological Deep Learning with State-Space Models: A Mamba Approach for Simplicial Complexes [4.787059527893628]
本稿では,Mamba状態空間モデルをバックボーンとして利用して,単純な複素数を扱うように設計された新しいアーキテクチャを提案する。
提案手法は, 隣接セルをベースとしたノードのシーケンスを生成し, ランクに関わらず, 上位構造間の直接通信を可能にする。
論文 参考訳(メタデータ) (2024-09-18T14:49:25Z) - GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。
本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。
大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-06-04T15:09:29Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。