論文の概要: Symmetric Dilated Convolution for Surgical Gesture Recognition
- arxiv url: http://arxiv.org/abs/2007.06373v2
- Date: Tue, 14 Jul 2020 15:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:34:09.881900
- Title: Symmetric Dilated Convolution for Surgical Gesture Recognition
- Title(参考訳): 手術用ジェスチャー認識のための対称拡張畳み込み
- Authors: Jinglu Zhang, Yinyu Nie, Yao Lyu, Hailin Li, Jian Chang, Xiaosong
Yang, Jian Jun Zhang
- Abstract要約: 外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。
本研究では,長期時間パターンを符号化・復号化するために,自己アテンションモジュールでブリッジされた対称的拡張構造を用いて手法を考案する。
JIGSAWSデータセットからの基本的なロボット縫合タスクに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 10.699258974625073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic surgical gesture recognition is a prerequisite of intra-operative
computer assistance and objective surgical skill assessment. Prior works either
require additional sensors to collect kinematics data or have limitations on
capturing temporal information from long and untrimmed surgical videos. To
tackle these challenges, we propose a novel temporal convolutional architecture
to automatically detect and segment surgical gestures with corresponding
boundaries only using RGB videos. We devise our method with a symmetric
dilation structure bridged by a self-attention module to encode and decode the
long-term temporal patterns and establish the frame-to-frame relationship
accordingly. We validate the effectiveness of our approach on a fundamental
robotic suturing task from the JIGSAWS dataset. The experiment results
demonstrate the ability of our method on capturing long-term frame
dependencies, which largely outperform the state-of-the-art methods on the
frame-wise accuracy up to ~6 points and the F1@50 score ~6 points.
- Abstract(参考訳): 自動手術ジェスチャー認識は術中コンピュータ支援と客観的手術スキル評価の前提条件である。
以前の作業では、キネマティックなデータを集めるために追加のセンサーが必要か、長くて未撮影の手術ビデオから時間情報を取得することの制限が必要だった。
これらの課題に対処するため,RGBビデオのみを用いて外科的ジェスチャーを自動的に検出・分節する新しい時間的畳み込みアーキテクチャを提案する。
本手法は,長期の時間パターンを符号化・復号化するために,自己結合モジュールで橋渡しされた対称拡張構造を考案し,それに従ってフレーム間関係を確立する。
JIGSAWSデータセットからの基本的なロボット縫合作業におけるアプローチの有効性を検証する。
実験の結果,F1@50スコア~6ポイントまでのフレーム単位の精度で,最先端の手法よりも優れる長期フレーム依存性の把握に本手法が有効であることが示された。
関連論文リスト
- Efficient Frame Extraction: A Novel Approach Through Frame Similarity and Surgical Tool Tracking for Video Segmentation [1.6092864505858449]
本稿では,余剰フレームを効率的に除去し,データセットのサイズや計算時間を短縮する手法を提案する。
具体的には,手術器具の移動を追跡することで,連続するフレーム間の類似性を計算する。
フレームを適応的に選択することにより,フレーム数を10倍に削減し,精度を4.32%向上させる。
論文 参考訳(メタデータ) (2025-01-19T19:36:09Z) - Weakly-Supervised Surgical Phase Recognition [19.27227976291303]
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,本法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-26T07:54:47Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - ST-MTL: Spatio-Temporal Multitask Learning Model to Predict Scanpath
While Tracking Instruments in Robotic Surgery [14.47768738295518]
トラッキング機器によるタスク指向の注意の学習は、画像誘導型ロボット手術において大きな可能性を秘めている。
本稿では,リアルタイムの手術機器分割とタスク指向唾液度検出のための共有エンコーダとシンク時デコーダを用いたエンドツーエンドマルチタスク学習(ST-MTL)モデルを提案する。
本稿では,各デコーダの独立勾配を計算することで,非同期時間最適化手法を提案する。
最先端のセグメンテーションとサリエンシ手法と比較して、我々のモデルは評価指標よりも優れており、挑戦において優れた性能を生んでいる。
論文 参考訳(メタデータ) (2021-12-10T15:20:27Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Multi-frame Feature Aggregation for Real-time Instrument Segmentation in
Endoscopic Video [11.100734994959419]
ビデオフレームの特徴を時間的・空間的に集約するMFFA(Multi-frame Feature Aggregation)モジュールを提案する。
また,1つのラベル付きフレームからランダムに手術用フレームシーケンスを合成し,ネットワークトレーニングを支援する手法を開発した。
論文 参考訳(メタデータ) (2020-11-17T16:27:27Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。