論文の概要: Benchmarking CNN- and Transformer-Based Models for Surgical Instrument Segmentation in Robotic-Assisted Surgery
- arxiv url: http://arxiv.org/abs/2604.09151v1
- Date: Fri, 10 Apr 2026 09:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.800067
- Title: Benchmarking CNN- and Transformer-Based Models for Surgical Instrument Segmentation in Robotic-Assisted Surgery
- Title(参考訳): ロボット支援手術における手術機器分割のためのCNNおよびトランスフォーマーベースモデルのベンチマーク
- Authors: Sara Ameli,
- Abstract要約: 我々は、SAR-RARP50データセット上で、UNet、UNet、DeepLabV3、Attention UNet、SegFormerの5つのディープラーニングアーキテクチャをベンチマークする。
実験の結果,UNetやAttention UNetなどの畳み込みモデルがベースラインのパフォーマンスを向上する一方で,DeepLabV3はSegFormerに匹敵する結果が得られることがわかった。
SegFormerのようなトランスフォーマーベースのアーキテクチャは、グローバルなコンテキスト理解をさらに強化し、さまざまな機器の外観と手術条件の一般化を改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate segmentation of surgical instruments in robotic-assisted surgery is critical for enabling context-aware computer-assisted interventions, such as tool tracking, workflow analysis, and autonomous decision-making. In this study, we benchmark five deep learning architectures-UNet, UNet, DeepLabV3, Attention UNet, and SegFormer on the SAR-RARP50 dataset for multi-class semantic segmentation of surgical instruments in real-world radical prostatectomy videos. The models are trained with a compound loss function combining Cross Entropy and Dice loss to address class imbalance and capture fine object boundaries. Our experiments reveal that while convolutional models such as UNet and Attention UNet provide strong baseline performance, DeepLabV3 achieves results comparable to SegFormer, demonstrating the effectiveness of atrous convolution and multi-scale context aggregation in capturing complex surgical scenes. Transformer-based architectures like SegFormer further enhance global contextual understanding, leading to improved generalization across varying instrument appearances and surgical conditions. This work provides a comprehensive comparison and practical insights for selecting segmentation models in surgical AI applications, highlighting the trade-offs between convolutional and transformer-based approaches.
- Abstract(参考訳): ロボット支援手術における手術器具の正確なセグメンテーションは、ツールトラッキング、ワークフロー分析、自律的な意思決定など、コンテキスト対応のコンピュータ支援の介入を可能にするために重要である。
本研究では,SAR-RARP50データセット上にUNet,UNet,DeepLabV3,Attention UNet,SegFormerの5つのディープラーニングアーキテクチャをベンチマークし,実世界の根治的前立腺切除術ビデオにおける手術器具のマルチクラスセマンティックセグメンテーションについて検討した。
モデルはクロスエントロピーとディース損失を組み合わせた複合損失関数を用いて訓練され、クラス不均衡に対処し、細かなオブジェクト境界を捕捉する。
実験の結果,UNet や Attention UNet などの畳み込みモデルでは高いベースライン性能が得られたが,DeepLabV3 ではSegFormer に匹敵する結果が得られ,複雑な手術シーンのキャプチャにおけるアトラスな畳み込みとマルチスケールのコンテキストアグリゲーションの有効性が示された。
SegFormerのようなトランスフォーマーベースのアーキテクチャは、グローバルなコンテキスト理解をさらに強化し、さまざまな機器の外観と手術条件の一般化を改善した。
この研究は、外科的AIアプリケーションでセグメンテーションモデルを選択するための包括的な比較と実践的な洞察を提供し、畳み込みとトランスフォーマーベースのアプローチのトレードオフを強調している。
関連論文リスト
- FASL-Seg: Anatomy and Tool Segmentation of Surgical Scenes [7.04219830147424]
特徴適応型空間局在モデル(FASL-Seg)を提案する。
2つの異なる処理ストリームを通じて、機能の複数の詳細レベルをキャプチャするように設計されている。
外科的セグメンテーションのベンチマークデータセットであるEndoVis18とEndoVis17でテストされている。
FASL-Segは、EndoVis18の部品と解剖学的セグメンテーションに72.71%の平均的結合(mIoU)を達成し、SOTAを5%改善した。
論文 参考訳(メタデータ) (2025-09-07T17:59:09Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Leveraging Frequency Domain Learning in 3D Vessel Segmentation [50.54833091336862]
本研究では,Fourier領域学習を3次元階層分割モデルにおけるマルチスケール畳み込みカーネルの代用として活用する。
管状血管分割作業において,新しいネットワークは顕著なサイス性能(ASACA500が84.37%,ImageCASが80.32%)を示した。
論文 参考訳(メタデータ) (2024-01-11T19:07:58Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - FUN-SIS: a Fully UNsupervised approach for Surgical Instrument
Segmentation [16.881624842773604]
FUN-SISについて述べる。
我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。
手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文 参考訳(メタデータ) (2022-02-16T15:32:02Z) - Synthetic and Real Inputs for Tool Segmentation in Robotic Surgery [10.562627972607892]
腹腔鏡画像と組み合わせたロボットキネマティックデータを用いてラベル付け問題を緩和できる可能性が示唆された。
腹腔鏡画像とシミュレーション画像の並列処理のための新しい深層学習モデルを提案する。
論文 参考訳(メタデータ) (2020-07-17T16:33:33Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。