論文の概要: Weakly Supervised Temporal Convolutional Networks for Fine-grained
Surgical Activity Recognition
- arxiv url: http://arxiv.org/abs/2302.10834v1
- Date: Tue, 21 Feb 2023 17:26:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 14:17:51.227513
- Title: Weakly Supervised Temporal Convolutional Networks for Fine-grained
Surgical Activity Recognition
- Title(参考訳): 微粒な外科的活動認識のための時間的畳み込みネットワーク
- Authors: Sanat Ramesh, Diego Dall'Alba, Cristians Gonzalez, Tong Yu, Pietro
Mascagni, Didier Mutter, Jacques Marescaux, Paolo Fiorini, and Nicolas Padoy
- Abstract要約: 本稿では,段階認識学習の弱さとして,粗大でアノテートしやすい活動ラベル(フェーズ)を提案する。
我々は、弱い注釈付きビデオからエンドツーエンドにトレーニングされたResNet-50バックボーンを備えたシングルステージのテンポラル・コンボリューショナル・ネットワーク(SS-TCN)を採用している。
腹腔鏡下胃バイパス術40例と白内障手術50例を含むCATARACTSを併用した大規模ビデオデータセットにおいて,提案手法の有効性を広く評価し,その有効性を示した。
- 参考スコア(独自算出の注目度): 10.080444283496487
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic recognition of fine-grained surgical activities, called steps, is a
challenging but crucial task for intelligent intra-operative computer
assistance. The development of current vision-based activity recognition
methods relies heavily on a high volume of manually annotated data. This data
is difficult and time-consuming to generate and requires domain-specific
knowledge. In this work, we propose to use coarser and easier-to-annotate
activity labels, namely phases, as weak supervision to learn step recognition
with fewer step annotated videos. We introduce a step-phase dependency loss to
exploit the weak supervision signal. We then employ a Single-Stage Temporal
Convolutional Network (SS-TCN) with a ResNet-50 backbone, trained in an
end-to-end fashion from weakly annotated videos, for temporal activity
segmentation and recognition. We extensively evaluate and show the
effectiveness of the proposed method on a large video dataset consisting of 40
laparoscopic gastric bypass procedures and the public benchmark CATARACTS
containing 50 cataract surgeries.
- Abstract(参考訳): ステップと呼ばれる細かい手術活動の自動認識は、インテリジェントな術中コンピュータ支援にとって困難な作業だが重要な課題である。
現在の視覚に基づく行動認識手法の開発は、大量の手動注釈データに大きく依存している。
このデータは生成が難しく、ドメイン固有の知識を必要とする。
本研究は,より少ないステップアノテートビデオでステップ認識を学ぶための弱い監督として,より粗く,より簡単にアノテートできるアクティビティラベル,すなわちフェーズを使用することを提案する。
弱い監視信号を利用する段階的依存損失を導入する。
次に,ResNet-50のバックボーンを備えた単一段階の時間的畳み込みネットワーク(SS-TCN)を用いて,時間的活動のセグメンテーションと認識を行う。
腹腔鏡下胃バイパス術40例と白内障手術50例を含むCATARACTSを併用した大規模ビデオデータセットにおいて,提案手法の有効性を広く評価し,検討した。
関連論文リスト
- Robust Surgical Phase Recognition From Annotation Efficient Supervision [1.1510009152620668]
本稿では,欠落した位相アノテーションを効果的に扱える外科的位相認識のためのロバストな手法を提案する。
ビデオあたり3つの注釈付きフレームのみを用いて,MultiBypass140データセット上で85.1%の精度を実現する。
本研究は,外科的ワークフロー認識の進歩に寄与し,より効率的かつ信頼性の高い外科的位相認識システムの実現に寄与する。
論文 参考訳(メタデータ) (2024-06-26T16:47:31Z) - Weakly-Supervised Surgical Phase Recognition [19.27227976291303]
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,本法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-26T07:54:47Z) - NurViD: A Large Expert-Level Video Database for Nursing Procedure
Activity Understanding [20.273197899025117]
看護作業活動理解のための専門家レベルのアノテーションを備えた大規模ビデオデータセットであるNurViDを提案する。
NurViDは、合計144時間の1.5kビデオで構成されており、既存の最大の看護活動データセットの約4倍の長さである。
論文 参考訳(メタデータ) (2023-10-20T08:22:56Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Multi-Task Recurrent Neural Network for Surgical Gesture Recognition and
Progress Prediction [17.63619129438996]
本稿では,手術動作の同時認識のためのマルチタスクリカレントニューラルネットワークを提案する。
マルチタスクフレームワークでは,手作業によるラベリングやトレーニングを伴わずに,進捗推定による認識性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-03-10T14:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。