論文の概要: Towards Holistic Surgical Scene Understanding
- arxiv url: http://arxiv.org/abs/2212.04582v4
- Date: Fri, 26 Jan 2024 04:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 18:45:08.280812
- Title: Towards Holistic Surgical Scene Understanding
- Title(参考訳): 整形外科的シーン理解に向けて
- Authors: Natalia Valderrama, Paola Ruiz Puentes, Isabela Hern\'andez, Nicol\'as
Ayobi, Mathilde Verlyk, Jessica Santander, Juan Caicedo, Nicol\'as
Fern\'andez, Pablo Arbel\'aez
- Abstract要約: 本稿では,全身的な外科的シーン理解に向けた新しい実験枠組みを提案する。
まず、フェーズ、ステップ、インスツルメンツ、アトミックビジュアルアクション認識(PSI-AVA)データセットを紹介する。
第2に, 手術シーン理解のための強力なベースラインとして, アクション, フェーズ, インスツルメンテーション, ステップ認識(TAPIR)を提案する。
- 参考スコア(独自算出の注目度): 1.004785607987398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most benchmarks for studying surgical interventions focus on a specific
challenge instead of leveraging the intrinsic complementarity among different
tasks. In this work, we present a new experimental framework towards holistic
surgical scene understanding. First, we introduce the Phase, Step, Instrument,
and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes
annotations for both long-term (Phase and Step recognition) and short-term
reasoning (Instrument detection and novel Atomic Action recognition) in
robot-assisted radical prostatectomy videos. Second, we present Transformers
for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong
baseline for surgical scene understanding. TAPIR leverages our dataset's
multi-level annotations as it benefits from the learned representation on the
instrument detection task to improve its classification capacity. Our
experimental results in both PSI-AVA and other publicly available databases
demonstrate the adequacy of our framework to spur future research on holistic
surgical scene understanding.
- Abstract(参考訳): 外科的介入を研究するためのベンチマークのほとんどは、異なるタスク間の内在的な相補性を利用するのではなく、特定の課題に焦点を当てている。
本研究では,全身的外科的シーン理解のための新しい実験枠組みを提案する。
まず、フェーズ、ステップ、計測器、原子視覚行動認識(PSI-AVA)データセットを紹介する。
PSI-AVAには、ロボット支援根治的前立腺切除術ビデオにおける長期的(位相認識とステップ認識)と短期的推論(機器検出と新しいアトミックアクション認識)の両方のためのアノテーションが含まれている。
第2に, 手術シーン理解のための強力なベースラインとして, アクション, フェーズ, インスツルメンテーション, ステップ認識(TAPIR)を提案する。
TAPIRは、機器検出タスクの学習された表現から恩恵を受け、データセットのマルチレベルアノテーションを活用して、その分類能力を向上させる。
PSI-AVAおよび他の公開データベースにおける実験結果から,全身的な外科的シーン理解の研究を促進するための枠組みの有効性が示された。
関連論文リスト
- Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - SuPRA: Surgical Phase Recognition and Anticipation for Intra-Operative
Planning [46.57714869178571]
本稿では,手術段階を同時に認識し,次の手術段階を予測する2つのアプローチを提案する。
外科的位相認識・予測法(SuPRA)は,過去と現在の情報を正確な術中位相認識に活用する。
論文 参考訳(メタデータ) (2024-03-10T12:46:33Z) - Hypergraph-Transformer (HGT) for Interactive Event Prediction in
Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。
我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。
この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-02-03T00:58:05Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [31.338288460529046]
本稿では,前立腺腫 (GraSP) データセットについて述べる。
GraSPは、外科的シーン理解を、様々なレベルの粒度の相補的なタスクの階層としてモデル化した、キュレートされたベンチマークである。
本稿では,グローバルビデオ特徴抽出器と局所領域の提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを紹介する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - ST(OR)2: Spatio-Temporal Object Level Reasoning for Activity Recognition
in the Operating Room [6.132617753806978]
ORにおける外科的活動認識のための新しい試料効率およびオブジェクトベースアプローチを提案する。
本手法は, 臨床医と手術器具の幾何学的配置に着目し, ORにおける重要な物体相互作用のダイナミクスを活用する。
論文 参考訳(メタデータ) (2023-12-19T15:33:57Z) - Jumpstarting Surgical Computer Vision [2.7396997668655163]
我々は、多様な外科的データセットを柔軟に活用するために、自己教師付き学習を採用する。
腹腔鏡下胆嚢摘出術と腹腔鏡下子宮摘出術の位相認識と安全性の検討を行った。
事前トレーニングデータセットの構成は、さまざまな下流タスクに対するSSLメソッドの有効性に大きな影響を与える可能性がある。
論文 参考訳(メタデータ) (2023-12-10T18:54:16Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - TeCNO: Surgical Phase Recognition with Multi-Stage Temporal
Convolutional Networks [43.95869213955351]
外科的位相認識のための階層的予測補正を行う多段階時間畳み込みネットワーク(MS-TCN)を提案する。
本手法は腹腔鏡下胆嚢摘出術ビデオの2つのデータセットに対して,追加の外科的ツール情報を用いずに徹底的に評価した。
論文 参考訳(メタデータ) (2020-03-24T10:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。