論文の概要: Geo-RepNet: Geometry-Aware Representation Learning for Surgical Phase Recognition in Endoscopic Submucosal Dissection
- arxiv url: http://arxiv.org/abs/2507.09294v1
- Date: Sat, 12 Jul 2025 14:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.876255
- Title: Geo-RepNet: Geometry-Aware Representation Learning for Surgical Phase Recognition in Endoscopic Submucosal Dissection
- Title(参考訳): Geo-RepNet: Geometry-Aware Representation Learning for surgery phase Recognition inendoscopic Submucosal Dissection (特集:第2回日本臨床医学会講演会講演集)
- Authors: Rui Tang, Haochen Yin, Guankun Wang, Long Bai, An Wang, Huxin Gao, Jiazheng Wang, Hongliang Ren,
- Abstract要約: Geo-RepNetは、複雑な手術シーンにおける認識性能を高めるために、RGB画像と深度情報を統合する幾何学的な畳み込みフレームワークである。
提案手法の有効性を評価するため,実世界のESDビデオから高密度フレームレベルのアノテーションを付加した9フェーズのESDデータセットを構築した。
- 参考スコア(独自算出の注目度): 10.386536115270294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical phase recognition plays a critical role in developing intelligent assistance systems for minimally invasive procedures such as Endoscopic Submucosal Dissection (ESD). However, the high visual similarity across different phases and the lack of structural cues in RGB images pose significant challenges. Depth information offers valuable geometric cues that can complement appearance features by providing insights into spatial relationships and anatomical structures. In this paper, we pioneer the use of depth information for surgical phase recognition and propose Geo-RepNet, a geometry-aware convolutional framework that integrates RGB image and depth information to enhance recognition performance in complex surgical scenes. Built upon a re-parameterizable RepVGG backbone, Geo-RepNet incorporates the Depth-Guided Geometric Prior Generation (DGPG) module that extracts geometry priors from raw depth maps, and the Geometry-Enhanced Multi-scale Attention (GEMA) to inject spatial guidance through geometry-aware cross-attention and efficient multi-scale aggregation. To evaluate the effectiveness of our approach, we construct a nine-phase ESD dataset with dense frame-level annotations from real-world ESD videos. Extensive experiments on the proposed dataset demonstrate that Geo-RepNet achieves state-of-the-art performance while maintaining robustness and high computational efficiency under complex and low-texture surgical environments.
- Abstract(参考訳): 外科的位相認識は,内視鏡下粘膜郭清(ESD)などの低侵襲手術のための知的補助システムの開発において重要な役割を担っている。
しかし、異なる位相間での視覚的類似性やRGB画像の構造的手がかりの欠如が大きな課題となっている。
奥行き情報は、空間的関係や解剖学的構造に関する洞察を提供することで外観の特徴を補完する貴重な幾何学的手がかりを提供する。
本稿では,外科的位相認識における深度情報の利用の先駆者であり,複雑な手術シーンにおける認識性能を高めるために,RGB画像と深度情報を統合する幾何学的畳み込みフレームワークGeo-RepNetを提案する。
再パラメータ化可能なRepVGGのバックボーン上に構築されたGeo-RepNetには、生の深度マップからジオメトリ事前を抽出するDGPG(Depth-Guided Geometric Prior Generation)モジュールと、ジオメトリ拡張マルチスケールアテンション(Geometry-Enhanced Multi-scale Attention, GEMA)が組み込まれている。
提案手法の有効性を評価するため,実世界のESDビデオから高密度フレームレベルのアノテーションを付加した9フェーズのESDデータセットを構築した。
提案したデータセットの大規模な実験により、Geo-RepNetは、複雑で低テクスチュアな手術環境下で、堅牢性と高い計算効率を維持しながら、最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Scribble-Based Interactive Segmentation of Medical Hyperspectral Images [4.675955891956077]
本研究は、医用ハイパースペクトル画像のためのスクリブルベースのインタラクティブセグメンテーションフレームワークを導入する。
提案手法は,特徴抽出のための深層学習と,ユーザが提供するスクリブルから生成された測地距離マップを利用する。
論文 参考訳(メタデータ) (2024-08-05T12:33:07Z) - Depth-Driven Geometric Prompt Learning for Laparoscopic Liver Landmark Detection [43.600236988802465]
肝臓の解剖学的ランドマークは、2D-3Dアライメントの重要なマーカーである。
腹腔鏡下肝所見の検出を容易にするため,L3Dと呼ばれる新しいデータセットを収集した。
本稿では,D2GPLandという深度駆動型幾何学的プロンプト学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-06-25T18:02:11Z) - Semantic segmentation of surgical hyperspectral images under geometric
domain shifts [69.91792194237212]
本稿では、幾何学的アウト・オブ・ディストリビューション(OOD)データの存在下で、最先端のセマンティックセグメンテーションネットワークを初めて分析する。
有機移植(Organ transplantation)と呼ばれる専用の拡張技術により、一般化可能性にも対処する。
提案手法は,SOA DSCの最大67 % (RGB) と90% (HSI) を改善し,実際のOODテストデータ上での分配内性能と同等の性能を示す。
論文 参考訳(メタデータ) (2023-03-20T09:50:07Z) - Semantic-SuPer: A Semantic-aware Surgical Perception Framework for
Endoscopic Tissue Classification, Reconstruction, and Tracking [21.133420628173067]
外科的知覚の枠組みであるSemantic-SuPerを提案する。
データアソシエーション、3D再構成、内視鏡的シーンの追跡を容易にするため、幾何学的および意味的な情報を統合する。
論文 参考訳(メタデータ) (2022-10-29T19:33:21Z) - Recurrent Feature Propagation and Edge Skip-Connections for Automatic
Abdominal Organ Segmentation [13.544665065396373]
本稿では,エンコーダ,エッジ検出器,エッジスキップ接続付きデコーダ,繰り返し特徴伝搬ヘッドを含む,エンドツーエンドの4つの主要コンポーネントを訓練した3Dネットワークを提案する。
実験の結果,提案したネットワークはいくつかの最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-01-02T08:33:19Z) - Deep Unrolled Recovery in Sparse Biological Imaging [62.997667081978825]
ディープ・アルゴリズム・アンローリング(Deep Algorithm Unrolling)は、反復的アルゴリズムの解釈可能性と教師付きディープラーニングの性能向上を組み合わせたディープ・アーキテクチャを開発するためのモデルベースのアプローチである。
この枠組みは生体イメージングの応用に適しており、測定プロセスを記述する物理モデルが存在し、回復すべき情報がしばしば高度に構造化されている。
論文 参考訳(メタデータ) (2021-09-28T20:22:44Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Light Field Reconstruction Using Convolutional Network on EPI and
Extended Applications [78.63280020581662]
スパースビューからの光場再構成のための新しい畳み込みニューラルネットワーク(CNN)ベースのフレームワークを開発した。
最先端のアルゴリズムと比較して,提案フレームワークの高性能と堅牢性を実証する。
論文 参考訳(メタデータ) (2021-03-24T08:16:32Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。