Fugu-MT 論文翻訳(概要): Not End-to-End: Explore Multi-Stage Architecture for Online Surgical Phase Recognition

論文の概要: Not End-to-End: Explore Multi-Stage Architecture for Online Surgical Phase Recognition

arxiv url: http://arxiv.org/abs/2107.04810v1
Date: Sat, 10 Jul 2021 11:00:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-13 16:19:54.014736
Title: Not End-to-End: Explore Multi-Stage Architecture for Online Surgical Phase Recognition
Title（参考訳）: Not-to-End:オンライン外科的位相認識のためのマルチステージアーキテクチャの探索
Authors: Fangqiu Yi and Tingting Jiang
Abstract要約: 外科的位相認識タスクのための非エンドツーエンドトレーニング戦略を提案する。非エンドツーエンドのトレーニング戦略では、改良段階は2種類の乱れたシーケンスを別々に訓練する。改良モデルの3つの選択肢を評価し、分析と解が特定の多段階モデルの選択に対して堅牢であることを示す。
参考スコア（独自算出の注目度）: 11.234115388848284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Surgical phase recognition is of particular interest to computer assisted surgery systems, in which the goal is to predict what phase is occurring at each frame for a surgery video. Networks with multi-stage architecture have been widely applied in many computer vision tasks with rich patterns, where a predictor stage first outputs initial predictions and an additional refinement stage operates on the initial predictions to perform further refinement. Existing works show that surgical video contents are well ordered and contain rich temporal patterns, making the multi-stage architecture well suited for the surgical phase recognition task. However, we observe that when simply applying the multi-stage architecture to the surgical phase recognition task, the end-to-end training manner will make the refinement ability fall short of its wishes. To address the problem, we propose a new non end-to-end training strategy and explore different designs of multi-stage architecture for surgical phase recognition task. For the non end-to-end training strategy, the refinement stage is trained separately with proposed two types of disturbed sequences. Meanwhile, we evaluate three different choices of refinement models to show that our analysis and solution are robust to the choices of specific multi-stage models. We conduct experiments on two public benchmarks, the M2CAI16 Workflow Challenge, and the Cholec80 dataset. Results show that multi-stage architecture trained with our strategy largely boosts the performance of the current state-of-the-art single-stage model. Code is available at \url{https://github.com/ChinaYi/casual_tcn}.
Abstract（参考訳）: 手術相認識はコンピュータ支援手術システムにおいて特に関心があり、手術ビデオのフレーム毎にどの位相が起こっているかを予測することが目的である。マルチステージアーキテクチャを持つネットワークは、多くのコンピュータビジョンタスクにおいてリッチパターンで広く適用されており、予測器が最初に初期予測を出力し、追加の改良段階が初期予測を実行してさらなる改良を行う。既存の研究では,手術用ビデオコンテンツは順調であり,時間的パターンが豊富であることを示し,手術用位相認識タスクに適している。しかし, 手術段階認識タスクに多段階アーキテクチャを単純に適用すれば, エンドツーエンドの訓練方法が洗練能力の低下を招きかねないことが観察された。この問題に対処するため,外科的位相認識タスクのための多段階アーキテクチャの異なる設計を探索し,新たなエンドツーエンドトレーニング戦略を提案する。非エンドツーエンドのトレーニング戦略では、改良段階は2種類の乱れたシーケンスを別々に訓練する。一方,リファインメントモデルの3つの異なる選択を評価し,解析と解が特定の多段階モデルの選択にロバストであることを示す。 M2CAI16 Workflow ChallengeとCholec80データセットの2つの公開ベンチマークで実験を行います。その結果,当社の戦略でトレーニングされたマルチステージアーキテクチャは,現在の最先端のシングルステージモデルのパフォーマンスを大きく向上させることがわかった。コードは \url{https://github.com/chinayi/casual_tcn} で入手できる。

関連論文リスト

Recognizing Surgical Phases Anywhere: Few-Shot Test-time Adaptation and Task-graph Guided Refinement [43.44675567476855]
SPAは多目的外科ワークフロー理解のための軽量なフレームワークである。最小限のアノテーションで制度的な設定に基礎モデルを適用する。それは、複数の機関や手順にわたって、数ショットの外科的位相認識において、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-25T08:56:13Z)
UniSTD: Towards Unified Spatio-Temporal Learning across Diverse Disciplines [64.84631333071728]
本稿では,時間的モデリングのためのトランスフォーマーベースの統合フレームワークであるbfUnistageを紹介する。我々の研究は、タスク固有の視覚テキストが時間学習のための一般化可能なモデルを構築することができることを示した。また、時間的ダイナミクスを明示的に組み込むための時間的モジュールも導入する。
論文参考訳（メタデータ） (2025-03-26T17:33:23Z)
Catheter Detection and Segmentation in X-ray Images via Multi-task Learning [0.7324614782534692]
複数の予測ヘッドとresnetアーキテクチャを統合した畳み込みニューラルネットワークモデルを提案する。また,電極検出とカテーテルセグメンテーションを同時に行うためのマルチタスク学習戦略を提案する。
論文参考訳（メタデータ） (2025-03-04T15:32:32Z)
Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition [5.787586057526269]
外科的活動認識は、多視点カメラ記録から活動やフェーズを検出する重要なコンピュータビジョンタスクである。既存のSARモデルは、細粒度のクリニックの動きや多視点の知識を説明できないことが多い。本稿では, マルチビュー・プレトレーニング・フレームワークであるMultiview Pretraining for Video-Pose Surgery Activity Recognition PreViPSを提案する。
論文参考訳（メタデータ） (2025-02-19T17:08:04Z)
CPath-Omni: A Unified Multimodal Foundation Model for Patch and Whole Slide Image Analysis in Computational Pathology [17.781388341968967]
CPath-OmniはパッチとWSIレベルの画像解析を統合するために設計された最初のLMMである。 CPath-Omniは、42データセット中39のタスクに対して、最新技術(SOTA)のパフォーマンスを達成する。 CPath-CLIPは、初めて異なるビジョンモデルを統合し、大きな言語モデルをテキストエンコーダとして組み込んで、より強力なCLIPモデルを構築する。
論文参考訳（メタデータ） (2024-12-16T18:46:58Z)
SurgPETL: Parameter-Efficient Image-to-Surgical-Video Transfer Learning for Surgical Phase Recognition [9.675072799670458]
高次元映像データのための「映像事前学習とビデオ微調整」は、大きなパフォーマンスボトルネックを生じさせる。本稿では,外科的位相認識のためのパラメータ効率変換学習ベンチマークSurgPETLを提案する。 5つの大規模自然・医療データセットで事前訓練した2つの異なるスケールのViTに基づいて3つの高度な手法による広範囲な実験を行った。
論文参考訳（メタデータ） (2024-09-30T08:33:50Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
Reusable Architecture Growth for Continual Stereo Matching [92.36221737921274]
我々は、教師付きおよび自己監督型の両方で、新しいシーンを継続的に学習するための、再利用可能なアーキテクチャ成長(RAG)フレームワークを紹介します。 RAGは、前のユニットを再利用し、良好な性能を得ることにより、成長中の高い再利用性を維持することができる。また、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
論文参考訳（メタデータ） (2024-03-30T13:24:58Z)
Pixel-Wise Recognition for Holistic Surgical Scene Understanding [31.338288460529046]
本稿では,前立腺腫 (GraSP) データセットについて述べる。 GraSPは、外科的シーン理解を、様々なレベルの粒度の相補的なタスクの階層としてモデル化した、キュレートされたベンチマークである。本稿では,グローバルビデオ特徴抽出器と局所領域の提案を組み合わせた汎用アーキテクチャであるTransformers for Actions, Phases, Steps, and Instruments(TAPIS)モデルを紹介する。
論文参考訳（メタデータ） (2024-01-20T09:09:52Z)
Diagonal Hierarchical Consistency Learning for Semi-supervised Medical Image Segmentation [0.0]
対角的階層的整合学習(DiHC-Net)を用いた半教師付き医用画像セグメンテーションのための新しい枠組みを提案する。同一のマルチスケールアーキテクチャを持つが、アップサンプリング層や正規化層のような異なるサブレイヤを持つ複数のサブモデルで構成されている。簡単なフレームワークの有効性を検証する一連の実験は、臓器と腫瘍をカバーする公開ベンチマークデータセットにおいて、これまでのすべてのアプローチより優れている。
論文参考訳（メタデータ） (2023-11-10T12:38:16Z)
Aggregating Long-Term Context for Learning Laparoscopic and Robot-Assisted Surgical Workflows [40.48632897750319]
本稿では,タスク固有のネットワーク表現を利用した時間的ネットワーク構造を提案する。腹腔鏡下胆嚢摘出術を施行した。
論文参考訳（メタデータ） (2020-09-01T20:29:14Z)
MS-TCN++: Multi-Stage Temporal Convolutional Network for Action Segmentation [87.16030562892537]
本稿では,時間的行動分割タスクのための多段階アーキテクチャを提案する。第1段階は、次の段階によって洗練される初期予測を生成する。我々のモデルは3つのデータセットで最先端の結果を得る。
論文参考訳（メタデータ） (2020-06-16T14:50:47Z)
Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文参考訳（メタデータ） (2020-04-25T07:00:32Z)
Robust Medical Instrument Segmentation Challenge 2019 [56.148440125599905]
腹腔鏡装置の術中追跡は、しばしばコンピュータとロボットによる介入の必要条件である。本研究の課題は,30の手術症例から取得した10,040枚の注釈画像からなる外科的データセットに基づいていた。結果は、初期仮説、すなわち、アルゴリズムの性能がドメインギャップの増大とともに低下することを確認する。
論文参考訳（メタデータ） (2020-03-23T14:35:08Z)
Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2020-01-06T20:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。