論文の概要: SANGRIA: Surgical Video Scene Graph Optimization for Surgical Workflow Prediction
- arxiv url: http://arxiv.org/abs/2407.20214v2
- Date: Sat, 5 Oct 2024 11:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 14:16:02.068704
- Title: SANGRIA: Surgical Video Scene Graph Optimization for Surgical Workflow Prediction
- Title(参考訳): SANGRIA: 外科的ワークフロー予測のための手術ビデオシーングラフ最適化
- Authors: Çağhan Köksal, Ghazal Ghazaei, Felix Holm, Azade Farshad, Nassir Navab,
- Abstract要約: 手術シーングラフの生成と最適化のためのエンドツーエンドフレームワークを提案する。
CATARACTSデータセットのSOTAの精度は8%,F1スコアは10%向上した。
- 参考スコア(独自算出の注目度): 37.86132786212667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Graph-based holistic scene representations facilitate surgical workflow understanding and have recently demonstrated significant success. However, this task is often hindered by the limited availability of densely annotated surgical scene data. In this work, we introduce an end-to-end framework for the generation and optimization of surgical scene graphs on a downstream task. Our approach leverages the flexibility of graph-based spectral clustering and the generalization capability of foundation models to generate unsupervised scene graphs with learnable properties. We reinforce the initial spatial graph with sparse temporal connections using local matches between consecutive frames to predict temporally consistent clusters across a temporal neighborhood. By jointly optimizing the spatiotemporal relations and node features of the dynamic scene graph with the downstream task of phase segmentation, we address the costly and annotation-burdensome task of semantic scene comprehension and scene graph generation in surgical videos using only weak surgical phase labels. Further, by incorporating effective intermediate scene representation disentanglement steps within the pipeline, our solution outperforms the SOTA on the CATARACTS dataset by 8% accuracy and 10% F1 score in surgical workflow recognition
- Abstract(参考訳): グラフに基づく全体的シーン表現は外科的ワークフロー理解を容易にし、最近は大きな成功を収めている。
しかし, この課題は, 濃密に注釈付けされた手術シーンデータの入手が限られているため, しばしば妨げられる。
本研究では,下流作業における手術シーングラフの生成と最適化のためのエンドツーエンドフレームワークを提案する。
提案手法は,グラフベースのスペクトルクラスタリングの柔軟性と基礎モデルの一般化能力を利用して,学習可能な特性を持つ教師なしシーングラフを生成する。
時間的近傍の時間的一貫したクラスタを予測するために,連続するフレーム間の局所的なマッチングを用いて,空間グラフを疎結合で補強する。
動的シーングラフと位相セグメンテーションの下流タスクの時空間関係とノード特徴を協調的に最適化することにより、弱い位相ラベルのみを用いた手術ビデオにおけるセマンティックシーン理解とシーングラフ生成のコストとアノテーションに富んだタスクに対処する。
さらに、パイプライン内に効果的な中間シーン表現の不整合ステップを組み込むことで、私たちのソリューションは、CATARACTSデータセット上でのSOTAの精度を8%、F1スコアを10%向上させる。
関連論文リスト
- Revisiting Surgical Instrument Segmentation Without Human Intervention: A Graph Partitioning View [7.594796294925481]
本稿では,ビデオフレーム分割をグラフ分割問題として再検討し,教師なしの手法を提案する。
自己教師付き事前学習モデルは、まず、高レベルな意味的特徴をキャプチャする特徴抽出器として活用される。
ディープ」固有ベクトルでは、手術用ビデオフレームは、ツールや組織などの異なるモジュールに意味的に分割され、区別可能な意味情報を提供する。
論文 参考訳(メタデータ) (2024-08-27T05:31:30Z) - Encoding Surgical Videos as Latent Spatiotemporal Graphs for Object and
Anatomy-Driven Reasoning [2.9724186623561435]
時間とともに構成解剖学的構造やツールの観点から,手術ビデオを表すために潜時グラフを用いた。
本稿では,事前知識の時間的コヒーレンスを取り入れたグラフ編集モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-11T20:42:27Z) - Dynamic Scene Graph Representation for Surgical Video [37.22552586793163]
我々は、シーングラフを、より包括的で意味があり、人間の読みやすい方法で、手術ビデオを表現するために活用する。
CaDISとCATARACTSのセマンティックセグメンテーションからシーングラフデータセットを作成する。
モデル決定の妥当性と堅牢性について,手術シーングラフの利点を実証する。
論文 参考訳(メタデータ) (2023-09-25T21:28:14Z) - Local-Global Information Interaction Debiasing for Dynamic Scene Graph
Generation [51.92419880088668]
マルチタスク学習に基づく新しいDynSGGモデルDynSGG-MTLを提案する。
長期的人間の行動は、大域的な制約に適合する複数のシーングラフを生成するためにモデルを監督し、尾の述語を学べないモデルを避ける。
論文 参考訳(メタデータ) (2023-08-10T01:24:25Z) - Deep Temporal Graph Clustering [77.02070768950145]
深部時間グラフクラスタリング(GC)のための汎用フレームワークを提案する。
GCは、時間グラフの相互作用シーケンスに基づくバッチ処理パターンに適合するディープクラスタリング技術を導入している。
我々のフレームワークは、既存の時間グラフ学習手法の性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-18T06:17:50Z) - LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal
Reasoning in Dynamic Operating Rooms [39.11134330259464]
手術室(OR)の全体モデリングは難しいが必須課題である。
本稿では,過去の時間ステップのシーングラフが時間的表現として機能し,現在の予測を導くメモリシーングラフを紹介する。
我々は、私たちの軽量メモリシーングラフの時間情報をポイントクラウドや画像からの視覚情報とインテリジェントに融合するエンドツーエンドアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-23T14:26:16Z) - EasyDGL: Encode, Train and Interpret for Continuous-time Dynamic Graph Learning [92.71579608528907]
本稿では,3つのモジュールから構成される使い勝手の良いパイプライン(EasyDGL)を設計することを目的とする。
EasyDGLは、進化するグラフデータからモデルが学習する周波数コンテンツの予測力を効果的に定量化することができる。
論文 参考訳(メタデータ) (2023-03-22T06:35:08Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Learning and Reasoning with the Graph Structure Representation in
Robotic Surgery [15.490603884631764]
グラフ表現を推論する学習は、ロボット手術における外科的シーン理解において重要な役割を果たす。
我々は,シーングラフを作成し,楽器と外科的関心領域の間の外科的相互作用を予測する手法を開発した。
論文 参考訳(メタデータ) (2020-07-07T11:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。