論文の概要: Towards Graph Representation Learning Based Surgical Workflow
Anticipation
- arxiv url: http://arxiv.org/abs/2208.03824v1
- Date: Sun, 7 Aug 2022 21:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 12:38:10.318480
- Title: Towards Graph Representation Learning Based Surgical Workflow
Anticipation
- Title(参考訳): 手術ワークフロー予測に基づくグラフ表現学習に向けて
- Authors: Xiatian Zhang, Noura Al Moubayed, Hubert P. H. Shum
- Abstract要約: 外科的ワークフロー予測問題における楽器の動きを表現するためのグラフ表現学習フレームワークを提案する。
提案するグラフ表現では,楽器の境界ボックス情報を連続したフレーム内のグラフノードにマップする。
また、時間とともに機器の軌道や相互作用を表現するために、フレーム間/インストラメント間グラフエッジを構築します。
- 参考スコア(独自算出の注目度): 15.525314212209562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical workflow anticipation can give predictions on what steps to conduct
or what instruments to use next, which is an essential part of the
computer-assisted intervention system for surgery, e.g. workflow reasoning in
robotic surgery. However, current approaches are limited to their insufficient
expressive power for relationships between instruments. Hence, we propose a
graph representation learning framework to comprehensively represent instrument
motions in the surgical workflow anticipation problem. In our proposed graph
representation, we maps the bounding box information of instruments to the
graph nodes in the consecutive frames and build inter-frame/inter-instrument
graph edges to represent the trajectory and interaction of the instruments over
time. This design enhances the ability of our network on modeling both the
spatial and temporal patterns of surgical instruments and their interactions.
In addition, we design a multi-horizon learning strategy to balance the
understanding of various horizons indifferent anticipation tasks, which
significantly improves the model performance in anticipation with various
horizons. Experiments on the Cholec80 dataset demonstrate the performance of
our proposed method can exceed the state-of-the-art method based on richer
backbones, especially in instrument anticipation (1.27 v.s. 1.48 for inMAE;
1.48 v.s. 2.68 for eMAE). To the best of our knowledge, we are the first to
introduce a spatial-temporal graph representation into surgical workflow
anticipation.
- Abstract(参考訳): 外科的ワークフロー予測は、ロボット手術におけるワークフロー推論など、手術のためのコンピュータ支援介入システムにおいて重要な部分である、どの手順を実行するか、次にどの器具を使用するかを予測することができる。
しかし、現在のアプローチは楽器間の関係に不十分な表現力に限られている。
そこで我々は,外科的ワークフロー予測問題における楽器の動きを包括的に表現するグラフ表現学習フレームワークを提案する。
提案するグラフ表現では,楽器のバウンディングボックス情報を連続するフレーム内のグラフノードにマップし,フレーム間/挿入間グラフエッジを構築し,楽器の経時的軌跡と相互作用を表現する。
この設計により,手術器具の空間的・時間的パターンとその相互作用をモデル化するネットワークの能力が向上する。
さらに,様々な地平線と予測課題の理解を両立させるマルチホリゾン学習戦略を考案し,様々な地平線と予測のモデル性能を著しく向上させた。
cholec80データセットにおける実験により,提案手法の性能は,よりリッチなバックボーンに基づく最先端手法,特にインスツルメンツ予測(inmaeでは1.27 v.s. 1.48,emaeでは1.48 v.s. 2.68)を超えることが示された。
我々の知る限りでは、外科的ワークフロー予測に空間時間グラフ表現を導入するのは初めてである。
関連論文リスト
- Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Encoding Surgical Videos as Latent Spatiotemporal Graphs for Object and
Anatomy-Driven Reasoning [2.9724186623561435]
時間とともに構成解剖学的構造やツールの観点から,手術ビデオを表すために潜時グラフを用いた。
本稿では,事前知識の時間的コヒーレンスを取り入れたグラフ編集モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-11T20:42:27Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal
Reasoning in Dynamic Operating Rooms [39.11134330259464]
手術室(OR)の全体モデリングは難しいが必須課題である。
本稿では,過去の時間ステップのシーングラフが時間的表現として機能し,現在の予測を導くメモリシーングラフを紹介する。
我々は、私たちの軽量メモリシーングラフの時間情報をポイントクラウドや画像からの視覚情報とインテリジェントに融合するエンドツーエンドアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-23T14:26:16Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Learning and Reasoning with the Graph Structure Representation in
Robotic Surgery [15.490603884631764]
グラフ表現を推論する学習は、ロボット手術における外科的シーン理解において重要な役割を果たす。
我々は,シーングラフを作成し,楽器と外科的関心領域の間の外科的相互作用を予測する手法を開発した。
論文 参考訳(メタデータ) (2020-07-07T11:49:34Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z) - Graph Representation Learning via Graphical Mutual Information
Maximization [86.32278001019854]
本稿では,入力グラフとハイレベルな隠蔽表現との相関を測る新しい概念であるGMIを提案する。
我々は,グラフニューラルエンコーダの入力と出力の間でGMIを最大化することで訓練された教師なし学習モデルを開発する。
論文 参考訳(メタデータ) (2020-02-04T08:33:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。