論文の概要: Pixel-Wise Recognition for Holistic Surgical Scene Understanding
- arxiv url: http://arxiv.org/abs/2401.11174v2
- Date: Fri, 26 Jan 2024 04:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 17:13:19.253258
- Title: Pixel-Wise Recognition for Holistic Surgical Scene Understanding
- Title(参考訳): 整形外科的シーン理解のための画素幅認識
- Authors: Nicol\'as Ayobi and Santiago Rodr\'iguez and Alejandra P\'erez and
Isabela Hern\'andez and Nicol\'as Aparicio and Eug\'enie Dessevres and
Sebasti\'an Pe\~na and Jessica Santander and Juan Ignacio Caicedo and
Nicol\'as Fern\'andez and Pablo Arbel\'aez
- Abstract要約: 本稿では,前立腺腫 (GraSP) データセットについて述べる。
GraSPは、外科的シーン理解を、様々なレベルの粒度の相補的なタスクの階層としてモデル化した、キュレートされたベンチマークである。
本稿では,グローバルビデオ特徴抽出器と局所領域の提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを紹介する。
- 参考スコア(独自算出の注目度): 31.338288460529046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the Holistic and Multi-Granular Surgical Scene
Understanding of Prostatectomies (GraSP) dataset, a curated benchmark that
models surgical scene understanding as a hierarchy of complementary tasks with
varying levels of granularity. Our approach enables a multi-level comprehension
of surgical activities, encompassing long-term tasks such as surgical phases
and steps recognition and short-term tasks including surgical instrument
segmentation and atomic visual actions detection. To exploit our proposed
benchmark, we introduce the Transformers for Actions, Phases, Steps, and
Instrument Segmentation (TAPIS) model, a general architecture that combines a
global video feature extractor with localized region proposals from an
instrument segmentation model to tackle the multi-granularity of our benchmark.
Through extensive experimentation, we demonstrate the impact of including
segmentation annotations in short-term recognition tasks, highlight the varying
granularity requirements of each task, and establish TAPIS's superiority over
previously proposed baselines and conventional CNN-based models. Additionally,
we validate the robustness of our method across multiple public benchmarks,
confirming the reliability and applicability of our dataset. This work
represents a significant step forward in Endoscopic Vision, offering a novel
and comprehensive framework for future research towards a holistic
understanding of surgical procedures.
- Abstract(参考訳): 本稿では,手術シーンの理解を相補的タスクの階層構造としてモデル化し,様々なレベルの粒度をモデル化した,整形的および多角的前立腺腫の手術シーン理解データセット(GraSP)を提案する。
本手法は,手術の段階や段階認識などの長期的タスクや,手術器具のセグメンテーションや原子視覚行動検出などの短期的タスクを含む,外科的活動の多段階的理解を可能にする。
提案するベンチマークを活用するために,グローバルなビデオ特徴抽出器と機器セグメンテーションモデルからの局所的領域提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instrument Segmentation(TAPIS)モデルを提案する。
広範な実験を通じて,短期認識タスクにセグメント化アノテーションを含めることによる影響を実証し,各タスクの粒度要求の変化に着目し,提案するベースラインと従来のcnnベースモデルに対するtapisの優位性を確立する。
さらに、複数の公開ベンチマークでメソッドの堅牢性を検証し、データセットの信頼性と適用性を確認する。
この研究は内視鏡視における重要な進歩であり、外科手術の全体的理解に向けた新しい包括的枠組みを提供する。
関連論文リスト
- OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。
OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。
我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文 参考訳(メタデータ) (2024-11-23T02:53:08Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - Text Promptable Surgical Instrument Segmentation with Vision-Language
Models [16.203166812021045]
そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。
我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。
いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
論文 参考訳(メタデータ) (2023-06-15T16:26:20Z) - Towards Holistic Surgical Scene Understanding [1.004785607987398]
本稿では,全身的な外科的シーン理解に向けた新しい実験枠組みを提案する。
まず、フェーズ、ステップ、インスツルメンツ、アトミックビジュアルアクション認識(PSI-AVA)データセットを紹介する。
第2に, 手術シーン理解のための強力なベースラインとして, アクション, フェーズ, インスツルメンテーション, ステップ認識(TAPIR)を提案する。
論文 参考訳(メタデータ) (2022-12-08T22:15:27Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - FUN-SIS: a Fully UNsupervised approach for Surgical Instrument
Segmentation [16.881624842773604]
FUN-SISについて述べる。
我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。
手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文 参考訳(メタデータ) (2022-02-16T15:32:02Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Simulation-to-Real domain adaptation with teacher-student learning for
endoscopic instrument segmentation [1.1047993346634768]
注釈付きシミュレーションデータとラベルのない実データから共同学習する教師学習手法を紹介します。
3つのデータセットの実証結果は、提案したフレームワークの有効性を浮き彫りにする。
論文 参考訳(メタデータ) (2021-03-02T09:30:28Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。