論文の概要: Encoding Surgical Videos as Latent Spatiotemporal Graphs for Object and
Anatomy-Driven Reasoning
- arxiv url: http://arxiv.org/abs/2312.06829v1
- Date: Mon, 11 Dec 2023 20:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:10:03.347189
- Title: Encoding Surgical Videos as Latent Spatiotemporal Graphs for Object and
Anatomy-Driven Reasoning
- Title(参考訳): 物体・解剖学的推論のための潜時空間グラフとしての手術映像の符号化
- Authors: Aditya Murali, Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan,
Alain Garcia, Nariaki Okamoto, Didier Mutter, Nicolas Padoy
- Abstract要約: 時間とともに構成解剖学的構造やツールの観点から,手術ビデオを表すために潜時グラフを用いた。
本稿では,事前知識の時間的コヒーレンスを取り入れたグラフ編集モジュールを提案する。
- 参考スコア(独自算出の注目度): 2.9724186623561435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, spatiotemporal graphs have emerged as a concise and elegant manner
of representing video clips in an object-centric fashion, and have shown to be
useful for downstream tasks such as action recognition. In this work, we
investigate the use of latent spatiotemporal graphs to represent a surgical
video in terms of the constituent anatomical structures and tools and their
evolving properties over time. To build the graphs, we first predict frame-wise
graphs using a pre-trained model, then add temporal edges between nodes based
on spatial coherence and visual and semantic similarity. Unlike previous
approaches, we incorporate long-term temporal edges in our graphs to better
model the evolution of the surgical scene and increase robustness to temporary
occlusions. We also introduce a novel graph-editing module that incorporates
prior knowledge and temporal coherence to correct errors in the graph, enabling
improved downstream task performance. Using our graph representations, we
evaluate two downstream tasks, critical view of safety prediction and surgical
phase recognition, obtaining strong results that demonstrate the quality and
flexibility of the learned representations. Code is available at
github.com/CAMMA-public/SurgLatentGraph.
- Abstract(参考訳): 近年,ビデオクリップをオブジェクト中心で表現する簡潔でエレガントな方法として時空間グラフが登場し,アクション認識などの下流作業に有用であることが示されている。
本研究は, 解剖学的構造とツール, 経時的変化について, 外科的ビデオの表現に潜時時空間グラフを用いた場合について検討する。
まず,事前学習モデルを用いてフレームワイズグラフを予測し,空間的コヒーレンスと視覚的・意味的類似性に基づいてノード間の時間的エッジを追加する。
従来のアプローチとは異なり,手術場面の進化をモデル化し,一時的咬合に対するロバスト性を高めるために,長期的時間的エッジをグラフに組み込む。
また,従来の知識と時間的コヒーレンスを取り入れたグラフ編集モジュールを導入して,グラフの誤りを訂正し,下流タスクのパフォーマンスを向上させる。
グラフ表現を用いて,安全予測の批判的視点と外科的位相認識の2つの下流タスクを評価し,学習した表現の質と柔軟性を示す強力な結果を得た。
コードはgithub.com/CAMMA-public/SurgLatentGraphで入手できる。
関連論文リスト
- SANGRIA: Surgical Video Scene Graph Optimization for Surgical Workflow Prediction [37.86132786212667]
手術シーングラフの生成と最適化のためのエンドツーエンドフレームワークを提案する。
CATARACTSデータセットのSOTAの精度は8%,F1スコアは10%向上した。
論文 参考訳(メタデータ) (2024-07-29T17:44:34Z) - Graph-Level Embedding for Time-Evolving Graphs [24.194795771873046]
グラフ表現学習(ネットワーク埋め込みとも呼ばれる)は、様々なレベルの粒度で広く研究されている。
本稿では,このギャップに対処する時間グラフレベルの埋め込み手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T01:50:37Z) - Dynamic Graph Enhanced Contrastive Learning for Chest X-ray Report
Generation [92.73584302508907]
コントラスト学習を用いた医療レポート作成を支援するために,動的構造とノードを持つ知識グラフを提案する。
詳しくは、グラフの基本構造は一般知識から事前構築される。
各イメージ機能は、レポート生成のためにデコーダモジュールに入力する前に、独自の更新グラフに統合される。
論文 参考訳(メタデータ) (2023-03-18T03:53:43Z) - Spectral Augmentations for Graph Contrastive Learning [50.149996923976836]
コントラスト学習は、監督の有無にかかわらず、表現を学習するための第一の方法として現れてきた。
近年の研究では、グラフ表現学習における事前学習の有用性が示されている。
本稿では,グラフの対照的な目的に対する拡張を構築する際に,候補のバンクを提供するためのグラフ変換操作を提案する。
論文 参考訳(メタデータ) (2023-02-06T16:26:29Z) - State of the Art and Potentialities of Graph-level Learning [54.68482109186052]
グラフレベルの学習は、比較、回帰、分類など、多くのタスクに適用されている。
グラフの集合を学習する伝統的なアプローチは、サブストラクチャのような手作りの特徴に依存している。
ディープラーニングは、機能を自動的に抽出し、グラフを低次元表現に符号化することで、グラフレベルの学習をグラフの規模に適応させるのに役立っている。
論文 参考訳(メタデータ) (2023-01-14T09:15:49Z) - Self-supervised Representation Learning on Electronic Health Records
with Graph Kernel Infomax [4.133378723518227]
EHRのグラフィカル表現に対する自己教師付きグラフカーネル学習手法であるGraph Kernel Infomaxを提案する。
最先端とは違って、グラフ構造を変更して拡張ビューを構築することはできません。
我々のアプローチは、最先端を超える臨床下流課題にパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2022-09-01T16:15:08Z) - Self-Supervised Dynamic Graph Representation Learning via Temporal
Subgraph Contrast [0.8379286663107846]
本稿では,自己教師型動的グラフ表現学習フレームワーク(DySubC)を提案する。
DySubCは、動的グラフの構造的特徴と進化的特徴を同時に学習するために、時間的部分グラフのコントラスト学習タスクを定義している。
実世界の5つのデータセットの実験では、DySubCは関連するベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-12-16T09:35:34Z) - Joint Graph Learning and Matching for Semantic Feature Correspondence [69.71998282148762]
本稿では,グラフマッチングを向上するための信頼度の高いグラフ構造を探索するために,GLAMという共用電子グラフ学習とマッチングネットワークを提案する。
提案手法は,3つの人気ビジュアルマッチングベンチマーク (Pascal VOC, Willow Object, SPair-71k) で評価される。
すべてのベンチマークにおいて、従来の最先端のグラフマッチング手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-09-01T08:24:02Z) - Temporal Contrastive Graph Learning for Video Action Recognition and
Retrieval [83.56444443849679]
本研究では,動画内の時間依存性を利用して,TCGL (temporal Contrastive Graph Learning) という新たな自己監督手法を提案する。
TCGLは、スニペット間およびスニペット内時間依存性を時間表現学習のための自己監督信号として共同で評価するハイブリッドグラフコントラスト学習戦略をルーツとしています。
実験結果は、大規模アクション認識およびビデオ検索ベンチマークにおける最先端の方法よりも、TCGLの優位性を示しています。
論文 参考訳(メタデータ) (2021-01-04T08:11:39Z) - GraphOpt: Learning Optimization Models of Graph Formation [72.75384705298303]
本稿では,グラフ構造形成の暗黙的モデルを学ぶエンドツーエンドフレームワークを提案し,その基盤となる最適化機構を明らかにする。
学習した目的は、観測されたグラフプロパティの説明として機能し、ドメイン内の異なるグラフを渡すために自分自身を貸すことができる。
GraphOptは、グラフ内のリンク生成をシーケンシャルな意思決定プロセスとして、最大エントロピー逆強化学習アルゴリズムを用いて解決する。
論文 参考訳(メタデータ) (2020-07-07T16:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。