論文の概要: Not End-to-End: Explore Multi-Stage Architecture for Online Surgical
Phase Recognition
- arxiv url: http://arxiv.org/abs/2107.04810v1
- Date: Sat, 10 Jul 2021 11:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 16:19:54.014736
- Title: Not End-to-End: Explore Multi-Stage Architecture for Online Surgical
Phase Recognition
- Title(参考訳): Not-to-End:オンライン外科的位相認識のためのマルチステージアーキテクチャの探索
- Authors: Fangqiu Yi and Tingting Jiang
- Abstract要約: 外科的位相認識タスクのための非エンドツーエンドトレーニング戦略を提案する。
非エンドツーエンドのトレーニング戦略では、改良段階は2種類の乱れたシーケンスを別々に訓練する。
改良モデルの3つの選択肢を評価し、分析と解が特定の多段階モデルの選択に対して堅牢であることを示す。
- 参考スコア(独自算出の注目度): 11.234115388848284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical phase recognition is of particular interest to computer assisted
surgery systems, in which the goal is to predict what phase is occurring at
each frame for a surgery video. Networks with multi-stage architecture have
been widely applied in many computer vision tasks with rich patterns, where a
predictor stage first outputs initial predictions and an additional refinement
stage operates on the initial predictions to perform further refinement.
Existing works show that surgical video contents are well ordered and contain
rich temporal patterns, making the multi-stage architecture well suited for the
surgical phase recognition task. However, we observe that when simply applying
the multi-stage architecture to the surgical phase recognition task, the
end-to-end training manner will make the refinement ability fall short of its
wishes. To address the problem, we propose a new non end-to-end training
strategy and explore different designs of multi-stage architecture for surgical
phase recognition task. For the non end-to-end training strategy, the
refinement stage is trained separately with proposed two types of disturbed
sequences. Meanwhile, we evaluate three different choices of refinement models
to show that our analysis and solution are robust to the choices of specific
multi-stage models. We conduct experiments on two public benchmarks, the
M2CAI16 Workflow Challenge, and the Cholec80 dataset. Results show that
multi-stage architecture trained with our strategy largely boosts the
performance of the current state-of-the-art single-stage model. Code is
available at \url{https://github.com/ChinaYi/casual_tcn}.
- Abstract(参考訳): 手術相認識はコンピュータ支援手術システムにおいて特に関心があり、手術ビデオのフレーム毎にどの位相が起こっているかを予測することが目的である。
マルチステージアーキテクチャを持つネットワークは、多くのコンピュータビジョンタスクにおいてリッチパターンで広く適用されており、予測器が最初に初期予測を出力し、追加の改良段階が初期予測を実行してさらなる改良を行う。
既存の研究では,手術用ビデオコンテンツは順調であり,時間的パターンが豊富であることを示し,手術用位相認識タスクに適している。
しかし, 手術段階認識タスクに多段階アーキテクチャを単純に適用すれば, エンドツーエンドの訓練方法が洗練能力の低下を招きかねないことが観察された。
この問題に対処するため,外科的位相認識タスクのための多段階アーキテクチャの異なる設計を探索し,新たなエンドツーエンドトレーニング戦略を提案する。
非エンドツーエンドのトレーニング戦略では、改良段階は2種類の乱れたシーケンスを別々に訓練する。
一方,リファインメントモデルの3つの異なる選択を評価し,解析と解が特定の多段階モデルの選択にロバストであることを示す。
M2CAI16 Workflow ChallengeとCholec80データセットの2つの公開ベンチマークで実験を行います。
その結果,当社の戦略でトレーニングされたマルチステージアーキテクチャは,現在の最先端のシングルステージモデルのパフォーマンスを大きく向上させることがわかった。
コードは \url{https://github.com/chinayi/casual_tcn} で入手できる。
関連論文リスト
- SurgPETL: Parameter-Efficient Image-to-Surgical-Video Transfer Learning for Surgical Phase Recognition [9.675072799670458]
高次元映像データのための「映像事前学習とビデオ微調整」は、大きなパフォーマンスボトルネックを生じさせる。
本稿では,外科的位相認識のためのパラメータ効率変換学習ベンチマークSurgPETLを提案する。
5つの大規模自然・医療データセットで事前訓練した2つの異なるスケールのViTに基づいて3つの高度な手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-30T08:33:50Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Reusable Architecture Growth for Continual Stereo Matching [92.36221737921274]
我々は、教師付きおよび自己監督型の両方で、新しいシーンを継続的に学習するための、再利用可能なアーキテクチャ成長(RAG)フレームワークを紹介します。
RAGは、前のユニットを再利用し、良好な性能を得ることにより、成長中の高い再利用性を維持することができる。
また、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-30T13:24:58Z) - Pixel-Wise Recognition for Holistic Surgical Scene Understanding [31.338288460529046]
本稿では,前立腺腫 (GraSP) データセットについて述べる。
GraSPは、外科的シーン理解を、様々なレベルの粒度の相補的なタスクの階層としてモデル化した、キュレートされたベンチマークである。
本稿では,グローバルビデオ特徴抽出器と局所領域の提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを紹介する。
論文 参考訳(メタデータ) (2024-01-20T09:09:52Z) - Diagonal Hierarchical Consistency Learning for Semi-supervised Medical Image Segmentation [0.0]
対角的階層的整合学習(DiHC-Net)を用いた半教師付き医用画像セグメンテーションのための新しい枠組みを提案する。
同一のマルチスケールアーキテクチャを持つが、アップサンプリング層や正規化層のような異なるサブレイヤを持つ複数のサブモデルで構成されている。
簡単なフレームワークの有効性を検証する一連の実験は、臓器と腫瘍をカバーする公開ベンチマークデータセットにおいて、これまでのすべてのアプローチより優れている。
論文 参考訳(メタデータ) (2023-11-10T12:38:16Z) - Aggregating Long-Term Context for Learning Laparoscopic and
Robot-Assisted Surgical Workflows [40.48632897750319]
本稿では,タスク固有のネットワーク表現を利用した時間的ネットワーク構造を提案する。
腹腔鏡下胆嚢摘出術を施行した。
論文 参考訳(メタデータ) (2020-09-01T20:29:14Z) - MS-TCN++: Multi-Stage Temporal Convolutional Network for Action
Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。
第1段階は、次の段階によって洗練される初期予測を生成する。
我々のモデルは3つのデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-06-16T14:50:47Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z) - Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。
本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。
結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文 参考訳(メタデータ) (2020-03-23T14:35:08Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。