論文の概要: Towards Generalizable Surgical Activity Recognition Using Spatial
Temporal Graph Convolutional Networks
- arxiv url: http://arxiv.org/abs/2001.03728v4
- Date: Thu, 13 Aug 2020 20:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 09:34:59.122706
- Title: Towards Generalizable Surgical Activity Recognition Using Spatial
Temporal Graph Convolutional Networks
- Title(参考訳): 時空間グラフ畳み込みネットワークを用いた手術活動認識の一般化に向けて
- Authors: Duygu Sarikaya, Pierre Jannin
- Abstract要約: シーンの変動に頑健なモダリティを導入し、向きや相対的な空間関係などの部分情報を推測することができる。
提案したモダリティは,ビデオにおける外科的ツールの空間時間グラフ表現に基づいて,外科的活動認識を行う。
- 参考スコア(独自算出の注目度): 0.40611352512781856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling and recognition of surgical activities poses an interesting research
problem. Although a number of recent works studied automatic recognition of
surgical activities, generalizability of these works across different tasks and
different datasets remains a challenge. We introduce a modality that is robust
to scene variation, and that is able to infer part information such as
orientational and relative spatial relationships. The proposed modality is
based on spatial temporal graph representations of surgical tools in videos,
for surgical activity recognition. To explore its effectiveness, we model and
recognize surgical gestures with the proposed modality. We construct spatial
graphs connecting the joint pose estimations of surgical tools. Then, we
connect each joint to the corresponding joint in the consecutive frames forming
inter-frame edges representing the trajectory of the joint over time. We then
learn hierarchical spatial temporal graph representations using Spatial
Temporal Graph Convolutional Networks (ST-GCN). Our experiments show that
learned spatial temporal graph representations perform well in surgical gesture
recognition even when used individually. We experiment with the Suturing task
of the JIGSAWS dataset where the chance baseline for gesture recognition is
10%. Our results demonstrate 68% average accuracy which suggests a significant
improvement. Learned hierarchical spatial temporal graph representations can be
used either individually, in cascades or as a complementary modality in
surgical activity recognition, therefore provide a benchmark for future
studies. To our knowledge, our paper is the first to use spatial temporal graph
representations of surgical tools, and pose-based skeleton representations in
general, for surgical activity recognition.
- Abstract(参考訳): 手術活動のモデル化と認識は興味深い研究課題である。
最近の多くの研究が外科的活動の自動認識を研究しているが、これらの作業の汎用性は異なるタスクと異なるデータセットにまたがる。
本研究では,シーン変動に頑健なモダリティを導入し,方向関係や相対空間関係などの部分情報を推定する。
提案したモダリティは,ビデオにおける外科的ツールの空間時間グラフ表現に基づいて,外科的活動認識を行う。
その効果を探るため,提案手法を用いて外科的ジェスチャーをモデル化し,認識する。
手術器具の関節ポーズ推定を結合した空間グラフを構築した。
そして、各ジョイントと対応するジョイントを連続するフレームで連結し、ジョイントの軌道を経時的に表わすフレーム間エッジを形成する。
次に、時空間グラフ畳み込みネットワーク(ST-GCN)を用いて階層的な時空間グラフ表現を学習する。
本実験により,学習時空間グラフ表現は個別に使用しても手術時ジェスチャー認識において良好に機能することが示された。
我々は、ジェスチャー認識の確率ベースラインが10%であるjigsawデータセットのチューリングタスクを実験する。
その結果,平均精度は68%であり,有意な改善が示唆された。
学習された階層的空間時空間グラフ表現は、個別に、カスケードで、または外科的活動認識における相補的モダリティとして使用することができる。
本論文は,外科的ツールの空間時間グラフ表現と,一般的にはポーズに基づく骨格表現を外科的活動認識に利用した最初の論文である。
関連論文リスト
- VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - Phase-Specific Augmented Reality Guidance for Microscopic Cataract
Surgery Using Long-Short Spatiotemporal Aggregation Transformer [14.568834378003707]
乳化白内障手術(英: Phaemulsification cataract surgery, PCS)は、外科顕微鏡を用いた外科手術である。
PCS誘導システムは、手術用顕微鏡映像から貴重な情報を抽出し、熟練度を高める。
既存のPCSガイダンスシステムでは、位相特異なガイダンスに悩まされ、冗長な視覚情報に繋がる。
本稿では,認識された手術段階に対応するAR情報を提供する,新しい位相特異的拡張現実(AR)誘導システムを提案する。
論文 参考訳(メタデータ) (2023-09-11T02:56:56Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Using Human Gaze For Surgical Activity Recognition [0.40611352512781856]
手術映像における活動認識のための空間的時間的注意機構を備えた人間の視線の利用を提案する。
我々のモデルは、I3Dベースのアーキテクチャで構成され、3D畳み込みを用いて時間的特徴を学習し、人間の視線を用いて注意マップを学習する。
論文 参考訳(メタデータ) (2022-03-09T14:28:00Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Structured Landmark Detection via Topology-Adapting Deep Graph Learning [75.20602712947016]
解剖学的顔と医学的ランドマーク検出のための新しいトポロジ適応深層グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ、ハンド、ペルビス)で実験を行った。
論文 参考訳(メタデータ) (2020-04-17T11:55:03Z) - Multi-Task Recurrent Neural Network for Surgical Gesture Recognition and
Progress Prediction [17.63619129438996]
本稿では,手術動作の同時認識のためのマルチタスクリカレントニューラルネットワークを提案する。
マルチタスクフレームワークでは,手作業によるラベリングやトレーニングを伴わずに,進捗推定による認識性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-03-10T14:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。