論文の概要: Tri-modal Confluence with Temporal Dynamics for Scene Graph Generation in Operating Rooms
- arxiv url: http://arxiv.org/abs/2404.09231v1
- Date: Sun, 14 Apr 2024 12:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:58:08.908795
- Title: Tri-modal Confluence with Temporal Dynamics for Scene Graph Generation in Operating Rooms
- Title(参考訳): 手術室におけるシーングラフ生成のためのテンポラルダイナミックスとのトリモーダル・コンフルエンス
- Authors: Diandian Guo, Manxi Lin, Jialun Pei, He Tang, Yueming Jin, Pheng-Ann Heng,
- Abstract要約: 本稿では、TriTemp-ORと呼ばれる時間動的フレームワークとTri-modal(画像、点雲、言語)の結合を提案する。
我々のモデルは2次元フレームと3次元点雲間の時間的相互作用を行い、スケール適応型多視点時間的相互作用(ViewTemp)と幾何時間的点集合(PointTemp)を含む。
提案したTriTemp-ORは,関係認識統合による三モーダル特徴の集約を可能にし,シーングラフを生成するために関係を予測する。
- 参考スコア(独自算出の注目度): 47.31847567531981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A comprehensive understanding of surgical scenes allows for monitoring of the surgical process, reducing the occurrence of accidents and enhancing efficiency for medical professionals. Semantic modeling within operating rooms, as a scene graph generation (SGG) task, is challenging since it involves consecutive recognition of subtle surgical actions over prolonged periods. To address this challenge, we propose a Tri-modal (i.e., images, point clouds, and language) confluence with Temporal dynamics framework, termed TriTemp-OR. Diverging from previous approaches that integrated temporal information via memory graphs, our method embraces two advantages: 1) we directly exploit bi-modal temporal information from the video streaming for hierarchical feature interaction, and 2) the prior knowledge from Large Language Models (LLMs) is embedded to alleviate the class-imbalance problem in the operating theatre. Specifically, our model performs temporal interactions across 2D frames and 3D point clouds, including a scale-adaptive multi-view temporal interaction (ViewTemp) and a geometric-temporal point aggregation (PointTemp). Furthermore, we transfer knowledge from the biomedical LLM, LLaVA-Med, to deepen the comprehension of intraoperative relations. The proposed TriTemp-OR enables the aggregation of tri-modal features through relation-aware unification to predict relations so as to generate scene graphs. Experimental results on the 4D-OR benchmark demonstrate the superior performance of our model for long-term OR streaming.
- Abstract(参考訳): 手術シーンの総合的な理解は、手術過程の監視を可能にし、事故の発生を減らし、医療専門家の効率を向上する。
手術室におけるシーングラフ生成(SGG)タスクとしてのセマンティックモデリングは,長期にわたり微妙な手術行為を連続的に認識するので困難である。
この課題に対処するために、TriTemp-ORと呼ばれる時間動的フレームワークとTri-modal(画像、点雲、言語)の結合を提案する。
メモリグラフを介して時間情報を統合する従来のアプローチから切り離して、我々の手法は2つの利点を受け入れている。
1) 階層的特徴相互作用のためのビデオストリーミングからのバイモーダル時間情報を直接活用する。
2)Large Language Models (LLMs) からの事前の知識を組み込むことにより,オペレーティング・シアターにおけるクラス不均衡問題を緩和する。
具体的には,2次元フレームと3次元点雲間の時間的相互作用を,スケール適応型多視点時間的相互作用 (ViewTemp) と幾何時間的点集合 (PointTemp) を含む。
さらに,バイオメディカルLLM (LLaVA-Med) から知識を伝達し,術中関係の理解を深める。
提案したTriTemp-ORは,関係認識統合による三モーダル特徴の集約を可能にし,シーングラフを生成するために関係を予測する。
4D-ORベンチマークの実験結果から,長期ORストリーミングにおけるモデルの性能が向上したことが示された。
関連論文リスト
- ARN-LSTM: A Multi-Stream Attention-Based Model for Action Recognition with Temporal Dynamics [6.6713480895907855]
ARN-LSTMは、アクションシーケンスにおける空間的動きと時間的ダイナミクスを同時にキャプチャする課題に対処するために設計された、新しい行動認識モデルである。
提案モデルでは, 複数ストリーム融合アーキテクチャを用いて, 関節, 動き, 時間情報を統合する。
論文 参考訳(メタデータ) (2024-11-04T03:29:51Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal
Reasoning in Dynamic Operating Rooms [39.11134330259464]
手術室(OR)の全体モデリングは難しいが必須課題である。
本稿では,過去の時間ステップのシーングラフが時間的表現として機能し,現在の予測を導くメモリシーングラフを紹介する。
我々は、私たちの軽量メモリシーングラフの時間情報をポイントクラウドや画像からの視覚情報とインテリジェントに融合するエンドツーエンドアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-23T14:26:16Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Learning Sequence Representations by Non-local Recurrent Neural Memory [61.65105481899744]
教師付きシーケンス表現学習のためのNon-local Recurrent Neural Memory (NRNM)を提案する。
我々のモデルは長距離依存を捉えることができ、潜伏した高レベル特徴を我々のモデルで抽出することができる。
我々のモデルは、これらのシーケンスアプリケーションごとに特別に設計された他の最先端の手法と比較して好意的に比較する。
論文 参考訳(メタデータ) (2022-07-20T07:26:15Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Temporal Graph Modeling for Skeleton-based Action Recognition [25.788239844759246]
複雑な時間的ダイナミクスを捉えるための時間拡張グラフ畳み込みネットワーク(TE-GCN)を提案する。
構築された時間関係グラフは、意味的に関連する時間的特徴間の接続を明示的に構築する。
2つの大規模データセットで実験を行う。
論文 参考訳(メタデータ) (2020-12-16T09:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。