論文の概要: Surg-SegFormer: A Dual Transformer-Based Model for Holistic Surgical Scene Segmentation
- arxiv url: http://arxiv.org/abs/2507.04304v1
- Date: Sun, 06 Jul 2025 09:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.110992
- Title: Surg-SegFormer: A Dual Transformer-Based Model for Holistic Surgical Scene Segmentation
- Title(参考訳): Surg-SegFormer: 整形外科シーンセグメンテーションのためのデュアルトランスフォーマーベースモデル
- Authors: Fatimaelzahraa Ahmed, Muraam Abdel-Ghani, Muhammad Arsalan, Mahmoud Ali, Abdulaziz Al-Ali, Shidin Balakrishnan,
- Abstract要約: Surg-SegFormerは、最先端技術より優れた新しいプロンプトフリーモデルである。
堅牢で自動的な手術シーン理解を提供することで,専門医の指導負担を大幅に軽減する。
- 参考スコア(独自算出の注目度): 6.285713987996377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Holistic surgical scene segmentation in robot-assisted surgery (RAS) enables surgical residents to identify various anatomical tissues, articulated tools, and critical structures, such as veins and vessels. Given the firm intraoperative time constraints, it is challenging for surgeons to provide detailed real-time explanations of the operative field for trainees. This challenge is compounded by the scarcity of expert surgeons relative to trainees, making the unambiguous delineation of go- and no-go zones inconvenient. Therefore, high-performance semantic segmentation models offer a solution by providing clear postoperative analyses of surgical procedures. However, recent advanced segmentation models rely on user-generated prompts, rendering them impractical for lengthy surgical videos that commonly exceed an hour. To address this challenge, we introduce Surg-SegFormer, a novel prompt-free model that outperforms current state-of-the-art techniques. Surg-SegFormer attained a mean Intersection over Union (mIoU) of 0.80 on the EndoVis2018 dataset and 0.54 on the EndoVis2017 dataset. By providing robust and automated surgical scene comprehension, this model significantly reduces the tutoring burden on expert surgeons, empowering residents to independently and effectively understand complex surgical environments.
- Abstract(参考訳): ロボット補助手術(RAS)における整形外科的シーンセグメンテーション(英語版)により、外科的居住者は、血管や血管などの様々な解剖組織、関節ツール、重要な構造を特定できる。
術中時間制約をしっかりと考慮すれば,手術現場の詳細な実時間説明を訓練者に提供することは困難である。
この課題は、訓練生に対する専門医の不足によって、go- and no-go ゾーンの曖昧なデライン化を不都合なものにしている。
したがって, 外科手術の術後経過を明瞭に解析することで, 高性能セマンティックセグメンテーションモデルを実現することができる。
しかし、最近の高度なセグメンテーションモデルはユーザー生成プロンプトに依存しており、通常1時間を超える長い手術ビデオには実用的ではない。
この課題に対処するために、現在最先端技術より優れた新しいプロンプトフリーモデルであるSurg-SegFormerを紹介する。
Surg-SegFormerは、EndoVis2018データセットで0.80、EndoVis2017データセットで0.54の平均Intersection over Union(mIoU)を達成した。
このモデルは、堅牢で自動化された手術シーン理解を提供することで、専門医の教育負担を大幅に軽減し、複雑な手術環境を独立して効果的に理解できるようにする。
関連論文リスト
- Large-scale Self-supervised Video Foundation Model for Intelligent Surgery [27.418249899272155]
本稿では,大規模な外科的ビデオデータから共同時間的表現学習を可能にする,最初のビデオレベルの手術前トレーニングフレームワークを紹介する。
SurgVISTAは,空間構造を捕捉し,時間的ダイナミックスを複雑化する再構成型事前学習手法である。
実験では、SurgVISTAは自然領域と外科領域の事前訓練されたモデルの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:42:54Z) - SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。
従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。
本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-04-26T15:37:22Z) - EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。
本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-20T09:12:06Z) - OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding [26.962250661485967]
OphNetは、眼科の外科的ワークフロー理解のための、大規模な、専門家による注釈付きビデオベンチマークである。
66種類の白内障、緑内障、角膜手術にまたがる2,278本の外科的ビデオの多彩なコレクションがあり、102個のユニークな外科的フェーズと150個の微細な手術の詳細な注記がある。
OphNetは、既存の最大の外科的ワークフロー分析ベンチマークの約20倍の大きさである。
論文 参考訳(メタデータ) (2024-06-11T17:18:11Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。