Fugu-MT 論文翻訳(概要): Pixel-Wise Recognition for Holistic Surgical Scene Understanding

論文の概要: Pixel-Wise Recognition for Holistic Surgical Scene Understanding

arxiv url: http://arxiv.org/abs/2401.11174v1
Date: Sat, 20 Jan 2024 09:09:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 17:44:07.905929
Title: Pixel-Wise Recognition for Holistic Surgical Scene Understanding
Title（参考訳）: 整形外科的シーン理解のための画素幅認識
Authors: Nicol\'as Ayobi and Santiago Rodr\'iguez and Alejandra P\'erez and Isabela Hern\'andez and Nicol\'as Aparicio and Eug\'enie Dessevres and Sebasti\'an Pe\~na and Jessica Santander and Juan Ignacio Caicedo and Nicol\'as Fern\'andez and Pablo Arbel\'aez
Abstract要約: 本稿では,前立腺腫 (GraSP) データセットについて述べる。 GraSPは、外科的シーン理解を、様々なレベルの粒度の相補的なタスクの階層としてモデル化した、キュレートされたベンチマークである。本稿では,グローバルビデオ特徴抽出器と局所領域の提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを紹介する。
参考スコア（独自算出の注目度）: 31.338288460529046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents the Holistic and Multi-Granular Surgical Scene Understanding of Prostatectomies (GraSP) dataset, a curated benchmark that models surgical scene understanding as a hierarchy of complementary tasks with varying levels of granularity. Our approach enables a multi-level comprehension of surgical activities, encompassing long-term tasks such as surgical phases and steps recognition and short-term tasks including surgical instrument segmentation and atomic visual actions detection. To exploit our proposed benchmark, we introduce the Transformers for Actions, Phases, Steps, and Instrument Segmentation (TAPIS) model, a general architecture that combines a global video feature extractor with localized region proposals from an instrument segmentation model to tackle the multi-granularity of our benchmark. Through extensive experimentation, we demonstrate the impact of including segmentation annotations in short-term recognition tasks, highlight the varying granularity requirements of each task, and establish TAPIS's superiority over previously proposed baselines and conventional CNN-based models. Additionally, we validate the robustness of our method across multiple public benchmarks, confirming the reliability and applicability of our dataset. This work represents a significant step forward in Endoscopic Vision, offering a novel and comprehensive framework for future research towards a holistic understanding of surgical procedures.
Abstract（参考訳）: 本稿では,手術シーンの理解を相補的タスクの階層構造としてモデル化し,様々なレベルの粒度をモデル化した,整形的および多角的前立腺腫の手術シーン理解データセット(GraSP)を提案する。本手法は,手術の段階や段階認識などの長期的タスクや,手術器具のセグメンテーションや原子視覚行動検出などの短期的タスクを含む,外科的活動の多段階的理解を可能にする。提案するベンチマークを活用するために,グローバルなビデオ特徴抽出器と機器セグメンテーションモデルからの局所的領域提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instrument Segmentation(TAPIS)モデルを提案する。広範な実験を通じて,短期認識タスクにセグメント化アノテーションを含めることによる影響を実証し,各タスクの粒度要求の変化に着目し,提案するベースラインと従来のcnnベースモデルに対するtapisの優位性を確立する。さらに、複数の公開ベンチマークでメソッドの堅牢性を検証し、データセットの信頼性と適用性を確認する。この研究は内視鏡視における重要な進歩であり、外科手術の全体的理解に向けた新しい包括的枠組みを提供する。

関連論文リスト

SCOPE: Speech-guided COllaborative PErception Framework for Surgical Scene Segmentation [4.97436124491469]
本稿では,大規模言語モデル(LLM)の推論機能と,オープンセットVFMの認識機能を統合する,音声誘導協調認識フレームワークを提案する。このフレームワークの重要な構成要素は、VFM生成セグメンテーションの上位候補を生成する協調認識エージェントである。楽器自体がインタラクティブなポインタとして機能し、手術シーンの要素をラベル付けします。
論文参考訳（メタデータ） (2025-09-12T23:36:52Z)
Comparative validation of surgical phase recognition, instrument keypoint estimation, and instrument instance segmentation in endoscopy: Results of the PhaKIR 2024 challenge [27.48982385201173]
3つの医療機関から収集した腹腔鏡下胆嚢摘出術13例からなる新しいデータセットについて紹介した。既存のデータセットとは異なり、同じデータ内の機器の局所化と手続き的コンテキストを共同で調べることができる。バイオメディカル画像解析の課題に対するBIASガイドラインに従って,結果と知見を報告する。
論文参考訳（メタデータ） (2025-07-22T13:10:42Z)
EndoARSS: Adapting Spatially-Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery [11.286605039002419]
内視鏡手術は、ロボットによる最小侵襲手術のための金の標準である。従来のディープラーニングモデルは、しばしばクロスアクティビティな干渉に悩まされ、下流の各タスクで最適以下のパフォーマンスをもたらす。本研究では,内視鏡下手術活動認識とセマンティックセグメンテーションに特化して設計された,新しいマルチタスク学習フレームワークであるEndoARSSを提案する。
論文参考訳（メタデータ） (2025-06-07T15:18:43Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Dynamically evolving segment anything model with continuous learning for medical image segmentation [50.92344083895528]
ダイナミックに進化する医療画像セグメンテーションモデルであるEvoSAMを紹介する。 EvoSAMは、継続的に拡張されるシナリオとタスクの配列から新しい知識を蓄積する。血管セグメンテーションに関する外科医による実験により、EvoSAMはユーザプロンプトに基づいてセグメンテーション効率を高めることが確認された。
論文参考訳（メタデータ） (2025-03-08T14:37:52Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
Hypergraph-Transformer (HGT) for Interactive Event Prediction in Laparoscopic and Robotic Surgery [50.3022015601057]
腹腔内ビデオから外科的ワークフローの重要なインタラクティブな側面を理解し,予測できる予測型ニューラルネットワークを提案する。我々は,既存の手術用データセットとアプリケーションに対するアプローチを検証し,アクション・トリプレットの検出と予測を行った。この結果は、非構造的な代替案と比較して、我々のアプローチの優位性を示している。
論文参考訳（メタデータ） (2024-02-03T00:58:05Z)
SAR-RARP50: Segmentation of surgical instrumentation and Action Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文参考訳（メタデータ） (2023-12-31T13:32:18Z)
Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文参考訳（メタデータ） (2023-09-02T14:52:58Z)
GLSFormer : Gated - Long, Short Sequence Transformer for Step Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2023-07-20T17:57:04Z)
Text Promptable Surgical Instrument Segmentation with Vision-Language Models [16.203166812021045]
そこで本研究では,手術器具の多様性と分化に関わる課題を克服するために,新たなテキストプロンプト可能な手術器具セグメンテーション手法を提案する。我々は、事前訓練された画像とテキストエンコーダをモデルバックボーンとして利用し、テキストプロンプト可能なマスクデコーダを設計する。いくつかの手術器具セグメンテーションデータセットの実験は、我々のモデルの優れた性能と有望な一般化能力を示す。
論文参考訳（メタデータ） (2023-06-15T16:26:20Z)
Towards Holistic Surgical Scene Understanding [1.004785607987398]
本稿では,全身的な外科的シーン理解に向けた新しい実験枠組みを提案する。まず、フェーズ、ステップ、インスツルメンツ、アトミックビジュアルアクション認識(PSI-AVA)データセットを紹介する。第2に, 手術シーン理解のための強力なベースラインとして, アクション, フェーズ, インスツルメンテーション, ステップ認識(TAPIR)を提案する。
論文参考訳（メタデータ） (2022-12-08T22:15:27Z)
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。 4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文参考訳（メタデータ） (2022-04-10T18:51:55Z)
FUN-SIS: a Fully UNsupervised approach for Surgical Instrument Segmentation [16.881624842773604]
FUN-SISについて述べる。我々は、暗黙の動作情報と楽器形状に依存して、完全に装飾されていない内視鏡ビデオに基づいてフレーム単位のセグメンテーションモデルを訓練する。手術器具のセグメンテーションの完全教師なしの結果は, 完全に監督された最先端のアプローチとほぼ同等である。
論文参考訳（メタデータ） (2022-02-16T15:32:02Z)
Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文参考訳（メタデータ） (2021-06-09T14:35:44Z)
Simulation-to-Real domain adaptation with teacher-student learning for endoscopic instrument segmentation [1.1047993346634768]
注釈付きシミュレーションデータとラベルのない実データから共同学習する教師学習手法を紹介します。 3つのデータセットの実証結果は、提案したフレームワークの有効性を浮き彫りにする。
論文参考訳（メタデータ） (2021-03-02T09:30:28Z)
Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文参考訳（メタデータ） (2020-03-23T14:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。