論文の概要: Towards Holistic Surgical Scene Graph
- arxiv url: http://arxiv.org/abs/2507.15541v1
- Date: Mon, 21 Jul 2025 12:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.38337
- Title: Towards Holistic Surgical Scene Graph
- Title(参考訳): 整形外科的シーングラフを目指して
- Authors: Jongmin Shin, Enki Cho, Ka Yong Kim, Jung Yong Kim, Seong Tae Kim, Namkee Oh,
- Abstract要約: 手術シーンの理解はコンピュータによる介入システムにとって不可欠である。
手術シーンにおける複雑な情報を表現するため,グラフに基づくアプローチが検討されている。
本研究では,ツール-アクション-ターゲットの組み合わせと手動識別のためのアノテーションを含むEndoscapes-SG201データセットを提案する。
また,これらの重要な要素を学習し,表現するためのグラフベースの手法であるSSG-Comを紹介する。
- 参考スコア(独自算出の注目度): 2.6272547208243338
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Surgical scene understanding is crucial for computer-assisted intervention systems, requiring visual comprehension of surgical scenes that involves diverse elements such as surgical tools, anatomical structures, and their interactions. To effectively represent the complex information in surgical scenes, graph-based approaches have been explored to structurally model surgical entities and their relationships. Previous surgical scene graph studies have demonstrated the feasibility of representing surgical scenes using graphs. However, certain aspects of surgical scenes-such as diverse combinations of tool-action-target and the identity of the hand operating the tool-remain underexplored in graph-based representations, despite their importance. To incorporate these aspects into graph representations, we propose Endoscapes-SG201 dataset, which includes annotations for tool-action-target combinations and hand identity. We also introduce SSG-Com, a graph-based method designed to learn and represent these critical elements. Through experiments on downstream tasks such as critical view of safety assessment and action triplet recognition, we demonstrated the importance of integrating these essential scene graph components, highlighting their significant contribution to surgical scene understanding. The code and dataset are available at https://github.com/ailab-kyunghee/SSG-Com
- Abstract(参考訳): 外科的シーン理解は、外科的ツール、解剖学的構造、およびそれらの相互作用などの様々な要素を含む外科的シーンの視覚的理解を必要とする、コンピュータ支援的介入システムにとって不可欠である。
手術シーンにおける複雑な情報を効果的に表現するために,外科的実体とその関係を構造的にモデル化するためのグラフベースのアプローチが検討されている。
従来の手術シーングラフ研究は,手術シーンをグラフで表現できる可能性を示している。
しかし, ツール・アクション・ターゲットの多彩な組み合わせや, ツール・アクション・ターゲットを操作している手の同一性といった外科的シーンは, 重要さにもかかわらず, グラフベースで探索されている。
これらの側面をグラフ表現に組み込むために,ツール-アクション-ターゲットの組み合わせとハンドアイデンティティのアノテーションを含むEndoscapes-SG201データセットを提案する。
また,これらの重要な要素を学習し,表現するためのグラフベースの手法であるSSG-Comを紹介する。
安全評価の批判的視点や行動三重項認識などの下流課題の実験を通じて,これらの重要なシーングラフコンポーネントを統合することの重要性を実証し,外科的シーン理解への重要な貢献を浮き彫りにした。
コードとデータセットはhttps://github.com/ailab-kyunghee/SSG-Comで公開されている。
関連論文リスト
- Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Dynamic Scene Graph Representation for Surgical Video [37.22552586793163]
我々は、シーングラフを、より包括的で意味があり、人間の読みやすい方法で、手術ビデオを表現するために活用する。
CaDISとCATARACTSのセマンティックセグメンテーションからシーングラフデータセットを作成する。
モデル決定の妥当性と堅牢性について,手術シーングラフの利点を実証する。
論文 参考訳(メタデータ) (2023-09-25T21:28:14Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - SurGNN: Explainable visual scene understanding and assessment of
surgical skill using graph neural networks [19.57785997767885]
本稿では,グラフニューラルネットワーク(GNN)を用いて視覚的シーン理解と手術的スキルアセスメントを高める方法について検討する。
GNNは解釈可能な結果を提供し、予測されたスキルメトリクスに寄与する特定のアクション、楽器、または解剖学的構造を明らかにする。
論文 参考訳(メタデータ) (2023-08-24T20:32:57Z) - Latent Graph Representations for Critical View of Safety Assessment [2.9724186623561435]
CVS予測の手法として,まず乱れのあるシーングラフを用いて手術画像の表現を行い,その表現をグラフニューラルネットワークを用いて処理する手法を提案する。
我々のグラフ表現は、意味情報を明示的に符号化し、解剖学的推論を改善するとともに、視覚的特徴を識別可能性を維持し、意味的誤りに対する堅牢性を提供する。
本手法は,ボックスアノテーションのトレーニングにおいて,複数のベースラインメソッドよりも優れるだけでなく,セグメンテーションマスクのトレーニング時にも効果的にスケールし,最先端のパフォーマンスを維持していることを示す。
論文 参考訳(メタデータ) (2022-12-08T09:21:09Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Learning and Reasoning with the Graph Structure Representation in
Robotic Surgery [15.490603884631764]
グラフ表現を推論する学習は、ロボット手術における外科的シーン理解において重要な役割を果たす。
我々は,シーングラフを作成し,楽器と外科的関心領域の間の外科的相互作用を予測する手法を開発した。
論文 参考訳(メタデータ) (2020-07-07T11:49:34Z) - GoGNN: Graph of Graphs Neural Network for Predicting Structured Entity
Interactions [70.9481395807354]
本稿では,構造化エンティティグラフとエンティティ相互作用グラフの両方の特徴を階層的に抽出するグラフ・オブ・グラフニューラルネットワーク(GoGNN)を提案する。
GoGNNは、2つの代表的な構造化エンティティ相互作用予測タスクにおいて最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-05-12T03:46:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。