論文の概要: FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes
- arxiv url: http://arxiv.org/abs/2509.06159v1
- Date: Sun, 07 Sep 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.878741
- Title: FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes
- Title(参考訳): FASL-Seg : 手術シーンの解剖とツールセグメンテーション
- Authors: Muraam Abdel-Ghani, Mahmoud Ali, Mohamed Ali, Fatmaelzahraa Ahmed, Mohamed Arsalan, Abdulaziz Al-Ali, Shidin Balakrishnan,
- Abstract要約: 特徴適応型空間局在モデル(FASL-Seg)を提案する。
2つの異なる処理ストリームを通じて、機能の複数の詳細レベルをキャプチャするように設計されている。
外科的セグメンテーションのベンチマークデータセットであるEndoVis18とEndoVis17でテストされている。
FASL-Segは、EndoVis18の部品と解剖学的セグメンテーションに72.71%の平均的結合(mIoU)を達成し、SOTAを5%改善した。
- 参考スコア(独自算出の注目度): 5.399061354519321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing popularity of robotic minimally invasive surgeries has made deep learning-based surgical training a key area of research. A thorough understanding of the surgical scene components is crucial, which semantic segmentation models can help achieve. However, most existing work focuses on surgical tools and overlooks anatomical objects. Additionally, current state-of-the-art (SOTA) models struggle to balance capturing high-level contextual features and low-level edge features. We propose a Feature-Adaptive Spatial Localization model (FASL-Seg), designed to capture features at multiple levels of detail through two distinct processing streams, namely a Low-Level Feature Projection (LLFP) and a High-Level Feature Projection (HLFP) stream, for varying feature resolutions - enabling precise segmentation of anatomy and surgical instruments. We evaluated FASL-Seg on surgical segmentation benchmark datasets EndoVis18 and EndoVis17 on three use cases. The FASL-Seg model achieves a mean Intersection over Union (mIoU) of 72.71% on parts and anatomy segmentation in EndoVis18, improving on SOTA by 5%. It further achieves a mIoU of 85.61% and 72.78% in EndoVis18 and EndoVis17 tool type segmentation, respectively, outperforming SOTA overall performance, with comparable per-class SOTA results in both datasets and consistent performance in various classes for anatomy and instruments, demonstrating the effectiveness of distinct processing streams for varying feature resolutions.
- Abstract(参考訳): ロボットによる低侵襲手術の人気が高まり、深層学習に基づく外科訓練が重要な研究領域となっている。
手術シーンコンポーネントの徹底的な理解が不可欠であり、セマンティックセグメンテーションモデルが実現に役立てることができる。
しかし、現存するほとんどの研究は外科的道具に焦点を合わせ、解剖学的対象を見落としている。
さらに、現在の最先端(SOTA)モデルは、高レベルのコンテキスト特徴と低レベルのエッジ特徴のキャプチャのバランスをとるのに苦労している。
本稿では,2つの異なる処理ストリーム,すなわち低レベル特徴射影 (LLFP) と高レベル特徴射影 (HLFP) を介し,様々な特徴分解能を実現するための特徴適応空間局在モデル (FASL-Seg) を提案する。
外科的セグメンテーションのベンチマークデータセットであるEndoVis18とEndoVis17のFASL-Segを3症例で評価した。
FASL-Segモデルは、EndoVis18の部品と解剖学的セグメンテーションについて72.71%の平均的結合(mIoU)を達成し、SOTAを5%改善する。
さらに、EndoVis18とEndoVis17のツールタイプセグメンテーションにおいて85.61%と72.78%のmIoUを達成し、SOTA全体のパフォーマンスをそれぞれ上回り、クラスごとのSOTAのデータセットと、解剖学と機器の様々なクラスにおける一貫したパフォーマンスをそれぞれ比較し、様々な特徴解決のための異なる処理ストリームの有効性を実証した。
関連論文リスト
- SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - SurgXBench: Explainable Vision-Language Model Benchmark for Surgery [4.068223793121694]
VLM(Vision-Language Models)は、視覚とテキストのモダリティを横断する推論において、革新的な進歩をもたらした。
既存のモデルはパフォーマンスが限られており、その能力と限界を評価するためのベンチマーク研究の必要性を強調している。
ロボット支援型腹腔鏡による機器分類と動作分類のための2つのデータセットに対して,いくつかの先進VLMのゼロショット性能をベンチマークした。
論文 参考訳(メタデータ) (2025-05-16T00:42:18Z) - Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement [7.150163844454341]
視覚特異的トランスフォーマー法は外科的シーン理解に有望な方法である。
非対称特徴拡張モジュール(TAFE)を用いたトランスフォーマーベースの新しいフレームワークを提案する。
提案手法は, 手術分割作業におけるSOTA法よりも優れており, さらに, 微細な構造認識の能力も証明している。
論文 参考訳(メタデータ) (2024-10-23T07:58:47Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - Hierarchical Semi-Supervised Learning Framework for Surgical Gesture
Segmentation and Recognition Based on Multi-Modality Data [2.8770761243361593]
多モードデータを用いた外科的ジェスチャー分割のための階層型半教師付き学習フレームワークを開発した。
トレーニング済みのResNet-18'バックボーンを備えたTransformerベースのネットワークを使用して,手術ビデオから視覚的特徴を抽出する。
提案手法は、Suturing, Needle Passing, Knot Tyingタスクを含む、公開されているJIGSデータベースのデータを用いて評価されている。
論文 参考訳(メタデータ) (2023-07-31T21:17:59Z) - Semantic segmentation of surgical hyperspectral images under geometric
domain shifts [69.91792194237212]
本稿では、幾何学的アウト・オブ・ディストリビューション(OOD)データの存在下で、最先端のセマンティックセグメンテーションネットワークを初めて分析する。
有機移植(Organ transplantation)と呼ばれる専用の拡張技術により、一般化可能性にも対処する。
提案手法は,SOA DSCの最大67 % (RGB) と90% (HSI) を改善し,実際のOODテストデータ上での分配内性能と同等の性能を示す。
論文 参考訳(メタデータ) (2023-03-20T09:50:07Z) - From Forks to Forceps: A New Framework for Instance Segmentation of
Surgical Instruments [6.677634562400846]
最小侵襲手術と関連する応用は、インスタンスレベルでの外科的ツール分類とセグメンテーションを要求する。
本研究は,バウンディングボックスとセグメンテーションマスクが正確な場合が多いが,分類ヘッドが手術器具の分類ラベルを誤分類していることを示す。
我々は、既存のインスタンスセグメンテーションモデルに分類モジュールを新しいステージとして追加する新しいニューラルネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:26:42Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。