論文の概要: LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition
- arxiv url: http://arxiv.org/abs/2004.09845v2
- Date: Thu, 23 Apr 2020 05:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-12-11 05:44:32.795174
- Title: LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition
- Title(参考訳): LRTD:手術ワークフロー認識のための長期時間依存に基づくアクティブラーニング
- Authors: Xueying Shi, Yueming Jin, Qi Dou, Pheng-Ann Heng
- Abstract要約: 本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 67.86810761677403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic surgical workflow recognition in video is an essentially
fundamental yet challenging problem for developing computer-assisted and
robotic-assisted surgery. Existing approaches with deep learning have achieved
remarkable performance on analysis of surgical videos, however, heavily relying
on large-scale labelled datasets. Unfortunately, the annotation is not often
available in abundance, because it requires the domain knowledge of surgeons.
In this paper, we propose a novel active learning method for cost-effective
surgical video analysis. Specifically, we propose a non-local recurrent
convolutional network (NL-RCNet), which introduces non-local block to capture
the long-range temporal dependency (LRTD) among continuous frames. We then
formulate an intra-clip dependency score to represent the overall dependency
within this clip. By ranking scores among clips in unlabelled data pool, we
select the clips with weak dependencies to annotate, which indicates the most
informative ones to better benefit network training. We validate our approach
on a large surgical video dataset (Cholec80) by performing surgical workflow
recognition task. By using our LRTD based selection strategy, we can outperform
other state-of-the-art active learning methods. Using only up to 50% of
samples, our approach can exceed the performance of full-data training.
- Abstract(参考訳): ビデオにおける自動手術ワークフロー認識は、コンピュータ支援およびロボット支援手術を開発する上で、基本的には基本的な問題である。
既存のディープラーニングのアプローチは、大規模なラベル付きデータセットに大きく依存し、手術ビデオの分析において顕著なパフォーマンスを達成している。
残念なことに、このアノテーションは外科医のドメイン知識を必要とするため、多くは利用できない。
本稿では,費用対効果の高い手術映像解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
次にクリップ内の依存関係全体を表すために、クリップ内依存性スコアを定式化します。
非ラベルデータプールのクリップ間でスコアをランク付けすることで、アノテーションに弱い依存関係のあるクリップを選択します。
大規模手術ビデオデータセット (cholec80) 上で, 手術ワークフロー認識タスクを実行し, そのアプローチを検証する。
LRTDに基づく選択戦略を用いることで、他の最先端のアクティブな学習方法よりも優れている。
サンプルの最大50%しか使用していないため、本手法はフルデータトレーニングのパフォーマンスを上回ることができる。
関連論文リスト
- Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding [1.024113475677323]
データセットの欠如は、正確で包括的なワークフロー分析ソリューションの開発を妨げる。
本稿では,専門家を観察し,その説明を理解するための人間の学習手順から着想を得た,データの空間性と不均一性に対処する新しいアプローチを提案する。
手術領域に既存のデータセットが存在しないにもかかわらず,この課題に対処するため,外科的ビデオの高密度字幕化(DVC)のための最初の包括的ソリューションを提示する。
論文 参考訳(メタデータ) (2025-03-14T13:36:13Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。
様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-07T15:27:35Z) - Correlation-aware active learning for surgery video segmentation [13.327429312047396]
本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。
提案手法では、コントラスト学習を用いて微調整された遅延空間に画像を投影し、ビデオフレームの局所クラスタから一定数の代表画像を選択する。
手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T09:30:52Z) - VideoSum: A Python Library for Surgical Video Summarization [3.928145224623878]
本稿では,画像の可視化,アノテーション,処理を容易にするために,手術映像を手話板や代表フレームのコラージュに要約することを提案する。
手術用ビデオからストーリーボードを生成するためのPythonライブラリである videoum を提案する。
論文 参考訳(メタデータ) (2023-02-15T19:09:34Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Federated Cycling (FedCy): Semi-supervised Federated Learning of
Surgical Phases [57.90226879210227]
FedCyは、FLと自己教師付き学習を組み合わせた半教師付き学習(FSSL)手法で、ラベル付きビデオとラベルなしビデオの両方の分散データセットを利用する。
外科的段階の自動認識作業において,最先端のFSSL法よりも顕著な性能向上を示した。
論文 参考訳(メタデータ) (2022-03-14T17:44:53Z) - Effective semantic segmentation in Cataract Surgery: What matters most? [5.1151054398496685]
我々の研究は、白内障手術に関する挑戦的な公開ベンチマークであるCaDISに最先端のニューラルネットワーク設計の選択肢を提案する。
本手法は, 3つのセマンティックセマンティックセマンティクスタスクにおいて, よりきめ細かい外科的ツールセットを用いて, 高い性能を実現する。
論文 参考訳(メタデータ) (2021-08-13T08:27:54Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Aggregating Long-Term Context for Learning Laparoscopic and
Robot-Assisted Surgical Workflows [40.48632897750319]
本稿では,タスク固有のネットワーク表現を利用した時間的ネットワーク構造を提案する。
腹腔鏡下胆嚢摘出術を施行した。
論文 参考訳(メタデータ) (2020-09-01T20:29:14Z) - Confident Coreset for Active Learning in Medical Image Analysis [57.436224561482966]
本稿では,情報的サンプルを効果的に選択するための,不確実性と分散性を考慮した新しい能動的学習手法である信頼コアセットを提案する。
2つの医用画像解析タスクの比較実験により,本手法が他の活動的学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-05T13:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。