論文の概要: Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement
- arxiv url: http://arxiv.org/abs/2410.17642v1
- Date: Wed, 23 Oct 2024 07:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:50.131709
- Title: Surgical Scene Segmentation by Transformer With Asymmetric Feature Enhancement
- Title(参考訳): 非対称的特徴強調を用いた変圧器による手術シーンのセグメンテーション
- Authors: Cheng Yuan, Yutong Ban,
- Abstract要約: 視覚特異的トランスフォーマー法は外科的シーン理解に有望な方法である。
非対称特徴拡張モジュール(TAFE)を用いたトランスフォーマーベースの新しいフレームワークを提案する。
提案手法は, 手術分割作業におけるSOTA法よりも優れており, さらに, 微細な構造認識の能力も証明している。
- 参考スコア(独自算出の注目度): 7.150163844454341
- License:
- Abstract: Surgical scene segmentation is a fundamental task for robotic-assisted laparoscopic surgery understanding. It often contains various anatomical structures and surgical instruments, where similar local textures and fine-grained structures make the segmentation a difficult task. Vision-specific transformer method is a promising way for surgical scene understanding. However, there are still two main challenges. Firstly, the absence of inner-patch information fusion leads to poor segmentation performance. Secondly, the specific characteristics of anatomy and instruments are not specifically modeled. To tackle the above challenges, we propose a novel Transformer-based framework with an Asymmetric Feature Enhancement module (TAFE), which enhances local information and then actively fuses the improved feature pyramid into the embeddings from transformer encoders by a multi-scale interaction attention strategy. The proposed method outperforms the SOTA methods in several different surgical segmentation tasks and additionally proves its ability of fine-grained structure recognition. Code is available at https://github.com/cyuan-sjtu/ViT-asym.
- Abstract(参考訳): 手術シーンセグメンテーションは,ロボットによる腹腔鏡下手術理解の基礎課題である。
様々な解剖学的構造や手術器具が含まれており、同様の局所的なテクスチャや微細な構造がセグメンテーションを困難にしている。
視覚特異的トランスフォーマー法は外科的シーン理解に有望な方法である。
しかし、大きな課題は2つあります。
第一に、内部パッチ情報融合の欠如はセグメンテーション性能の低下につながる。
第二に、解剖学や楽器の特徴は特にモデル化されていない。
このような課題に対処するため,非対称機能拡張モジュール (TAFE) を用いたトランスフォーマーベースの新しいフレームワークを提案し,その拡張された特徴ピラミッドをマルチスケールインタラクションアテンション戦略によりトランスフォーマーエンコーダの埋め込みに積極的に融合させる。
提案手法は, 手術分割作業におけるSOTA法よりも優れており, さらに, 微細な構造認識の能力も証明している。
コードはhttps://github.com/cyuan-sjtu/ViT-asymで入手できる。
関連論文リスト
- SurgicalPart-SAM: Part-to-Whole Collaborative Prompting for Surgical Instrument Segmentation [66.21356751558011]
Segment Anything Model (SAM)は、ジェネリックオブジェクトセグメンテーションの約束を示し、様々なアプリケーションに可能性を提供します。
既存の方法では、SAMベースのフレームワークを手術データにチューニングすることで、手術器具セグメンテーション(SIS)にSAMを適用している。
本稿では,楽器構造知識をSAMの汎用知識と明確に統合する新しいSAM効率的なチューニング手法であるStuial Part-SAMを提案する。
論文 参考訳(メタデータ) (2023-12-22T07:17:51Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Text Promptable Surgical Instrument Segmentation with Vision-Language
Models [16.203166812021045]
そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-15T16:26:20Z) - Transformer-Based Visual Segmentation: A Survey [118.01564082499948]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。
トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。
トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-04-19T17:59:02Z) - Transforming the Interactive Segmentation for Medical Imaging [34.57242805353604]
本研究の目的は,人間のパフォーマンスに遅れる難易度の高い構造物の自動セグメンテーションをインタラクティブに洗練することである。
対話型(TIS)のための新しいトランスフォーマーアーキテクチャを提案する。
提案アーキテクチャはトランスフォーマーデコーダの変種で構成されており,アテンション機構と機能比較を自然に行う。
論文 参考訳(メタデータ) (2022-08-20T03:28:23Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Continual Hippocampus Segmentation with Transformers [1.2020488155038649]
取得条件や患者人口が経時的に変化する臨床環境では、深層ニューラルネットワークの安全な使用を確実にするための継続的な学習が鍵となる。
放射線学者は、Transformerベースのアーキテクチャが注目を集めている特定の関心領域を概説するセグメンテーションモデルを扱うことを好んでいる。
論文 参考訳(メタデータ) (2022-04-17T16:13:04Z) - TraSeTR: Track-to-Segment Transformer with Contrastive Query for
Instance-level Instrument Segmentation in Robotic Surgery [60.439434751619736]
そこで我々は,TraSeTRを提案する。TraSeTR,TraSeTR,Trace-to-Segment Transformerは,手術器具のセグメンテーションを支援する。
TraSeTRは、機器の種類、位置、アイデンティティとインスタンスレベルの予測を共同で理由付けている。
提案手法の有効性を,3つの公開データセットに対して,最先端の計器型セグメンテーション結果を用いて実証した。
論文 参考訳(メタデータ) (2022-02-17T05:52:18Z) - Class-Incremental Domain Adaptation with Smoothing and Calibration for
Surgical Report Generation [12.757176743817277]
本稿では,ロボット手術時の手術報告を生成するために,対象領域の新たなクラスとドメインシフトに取り組むためのクラスインクリメンタルドメイン適応(CIDA)を提案する。
抽出した特徴からキャプションを生成するために、一次元ガウス平滑化(CBS)によるカリキュラムを多層トランスを用いたキャプション予測モデルに統合する。
我々は,領域不変な特徴学習とよく校正されたネットワークが,ソース領域とターゲット領域の両方で手術報告生成性能を向上させることを観察する。
論文 参考訳(メタデータ) (2021-07-23T09:08:26Z) - TransUNet: Transformers Make Strong Encoders for Medical Image
Segmentation [78.01570371790669]
医用画像のセグメンテーションは医療システムの開発に必須の前提条件である。
様々な医療画像セグメンテーションタスクにおいて、U-Netとして知られるu字型アーキテクチャがデファクトスタンダードとなっている。
医用画像セグメンテーションの強力な代替手段として,トランスフォーマーとU-Netの両方を有効活用するTransUNetを提案する。
論文 参考訳(メタデータ) (2021-02-08T16:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。