論文の概要: Not End-to-End: Explore Multi-Stage Architecture for Online Surgical
Phase Recognition
- arxiv url: http://arxiv.org/abs/2107.04810v1
- Date: Sat, 10 Jul 2021 11:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:19:54.014736
- Title: Not End-to-End: Explore Multi-Stage Architecture for Online Surgical
Phase Recognition
- Title(参考訳): Not-to-End:オンライン外科的位相認識のためのマルチステージアーキテクチャの探索
- Authors: Fangqiu Yi and Tingting Jiang
- Abstract要約: 外科的位相認識タスクのための非エンドツーエンドトレーニング戦略を提案する。
非エンドツーエンドのトレーニング戦略では、改良段階は2種類の乱れたシーケンスを別々に訓練する。
改良モデルの3つの選択肢を評価し、分析と解が特定の多段階モデルの選択に対して堅牢であることを示す。
- 参考スコア(独自算出の注目度): 11.234115388848284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical phase recognition is of particular interest to computer assisted
surgery systems, in which the goal is to predict what phase is occurring at
each frame for a surgery video. Networks with multi-stage architecture have
been widely applied in many computer vision tasks with rich patterns, where a
predictor stage first outputs initial predictions and an additional refinement
stage operates on the initial predictions to perform further refinement.
Existing works show that surgical video contents are well ordered and contain
rich temporal patterns, making the multi-stage architecture well suited for the
surgical phase recognition task. However, we observe that when simply applying
the multi-stage architecture to the surgical phase recognition task, the
end-to-end training manner will make the refinement ability fall short of its
wishes. To address the problem, we propose a new non end-to-end training
strategy and explore different designs of multi-stage architecture for surgical
phase recognition task. For the non end-to-end training strategy, the
refinement stage is trained separately with proposed two types of disturbed
sequences. Meanwhile, we evaluate three different choices of refinement models
to show that our analysis and solution are robust to the choices of specific
multi-stage models. We conduct experiments on two public benchmarks, the
M2CAI16 Workflow Challenge, and the Cholec80 dataset. Results show that
multi-stage architecture trained with our strategy largely boosts the
performance of the current state-of-the-art single-stage model. Code is
available at \url{https://github.com/ChinaYi/casual_tcn}.
- Abstract(参考訳): 手術相認識はコンピュータ支援手術システムにおいて特に関心があり、手術ビデオのフレーム毎にどの位相が起こっているかを予測することが目的である。
マルチステージアーキテクチャを持つネットワークは、多くのコンピュータビジョンタスクにおいてリッチパターンで広く適用されており、予測器が最初に初期予測を出力し、追加の改良段階が初期予測を実行してさらなる改良を行う。
既存の研究では,手術用ビデオコンテンツは順調であり,時間的パターンが豊富であることを示し,手術用位相認識タスクに適している。
しかし, 手術段階認識タスクに多段階アーキテクチャを単純に適用すれば, エンドツーエンドの訓練方法が洗練能力の低下を招きかねないことが観察された。
この問題に対処するため,外科的位相認識タスクのための多段階アーキテクチャの異なる設計を探索し,新たなエンドツーエンドトレーニング戦略を提案する。
非エンドツーエンドのトレーニング戦略では、改良段階は2種類の乱れたシーケンスを別々に訓練する。
一方,リファインメントモデルの3つの異なる選択を評価し,解析と解が特定の多段階モデルの選択にロバストであることを示す。
M2CAI16 Workflow ChallengeとCholec80データセットの2つの公開ベンチマークで実験を行います。
その結果,当社の戦略でトレーニングされたマルチステージアーキテクチャは,現在の最先端のシングルステージモデルのパフォーマンスを大きく向上させることがわかった。
コードは \url{https://github.com/chinayi/casual_tcn} で入手できる。
関連論文リスト
- Pixel-Wise Recognition for Holistic Surgical Scene Understanding [31.338288460529046]
本稿では,前立腺腫 (GraSP) データセットについて述べる。
GraSPは、外科的シーン理解を、様々なレベルの粒度の相補的なタスクの階層としてモデル化した、キュレートされたベンチマークである。
本稿では,グローバルビデオ特徴抽出器と局所領域の提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを紹介する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - Diagonal Hierarchical Consistency Learning for Semi-supervised Medical
Image Segmentation [0.0]
対角的階層的整合学習(DiHC-Net)を用いた半教師付き医用画像セグメンテーションのための新しい枠組みを提案する。
同一のマルチスケールアーキテクチャを持つが、アップサンプリング層や正規化層のような異なるサブレイヤを持つ複数のサブモデルで構成されている。
一連の実験により、我々の単純なフレームワークの有効性が検証され、臓器と腫瘍に関する公開ベンチマークデータセットにおける以前のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-11-10T12:38:16Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - Weakly-Supervised Surgical Phase Recognition [19.27227976291303]
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,本法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-26T07:54:47Z) - Multimodal Semantic Scene Graphs for Holistic Modeling of Surgical
Procedures [70.69948035469467]
カメラビューから3Dグラフを生成するための最新のコンピュータビジョン手法を利用する。
次に,手術手順の象徴的,意味的表現を統一することを目的としたマルチモーダルセマンティックグラフシーン(MSSG)を紹介する。
論文 参考訳(メタデータ) (2021-06-09T14:35:44Z) - Aggregating Long-Term Context for Learning Laparoscopic and
Robot-Assisted Surgical Workflows [40.48632897750319]
本稿では,タスク固有のネットワーク表現を利用した時間的ネットワーク構造を提案する。
腹腔鏡下胆嚢摘出術を施行した。
論文 参考訳(メタデータ) (2020-09-01T20:29:14Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。