論文の概要: Temporal Memory Relation Network for Workflow Recognition from Surgical
Video
- arxiv url: http://arxiv.org/abs/2103.16327v1
- Date: Tue, 30 Mar 2021 13:20:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:14:13.040848
- Title: Temporal Memory Relation Network for Workflow Recognition from Surgical
Video
- Title(参考訳): 手術映像からのワークフロー認識のための時間記憶関連ネットワーク
- Authors: Yueming Jin, Yonghao Long, Cheng Chen, Zixu Zhao, Qi Dou, Pheng-Ann
Heng
- Abstract要約: 本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
- 参考スコア(独自算出の注目度): 53.20825496640025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic surgical workflow recognition is a key component for developing
context-aware computer-assisted systems in the operating theatre. Previous
works either jointly modeled the spatial features with short fixed-range
temporal information, or separately learned visual and long temporal cues. In
this paper, we propose a novel end-to-end temporal memory relation network
(TMRNet) for relating long-range and multi-scale temporal patterns to augment
the present features. We establish a long-range memory bank to serve as a
memory cell storing the rich supportive information. Through our designed
temporal variation layer, the supportive cues are further enhanced by
multi-scale temporal-only convolutions. To effectively incorporate the two
types of cues without disturbing the joint learning of spatio-temporal
features, we introduce a non-local bank operator to attentively relate the past
to the present. In this regard, our TMRNet enables the current feature to view
the long-range temporal dependency, as well as tolerate complex temporal
extents. We have extensively validated our approach on two benchmark surgical
video datasets, M2CAI challenge dataset and Cholec80 dataset. Experimental
results demonstrate the outstanding performance of our method, consistently
exceeding the state-of-the-art methods by a large margin (e.g., 67.0% v.s.
78.9% Jaccard on Cholec80 dataset).
- Abstract(参考訳): 自動手術ワークフロー認識は,手術室内でコンテキスト認識型コンピュータ支援システムを開発する上で重要なコンポーネントである。
以前の作品は、短い固定範囲の時間情報で空間的特徴を共同でモデル化するか、視覚的および長期の時間的手がかりを別々に学習した。
本稿では,この特徴を補うために,長距離・多スケールの時空間パターンを関連付ける新たなエンドツーエンド時空間記憶関係ネットワーク(tmrnet)を提案する。
豊富な支援情報を格納するメモリセルとして、長距離メモリバンクを確立する。
設計した時間変化層により,複数スケールの時間のみの畳み込みにより,支援的手がかりがさらに強化される。
時空間特徴の連立学習を邪魔することなく2種類の手がかりを効果的に活用するために,過去と現在を注意深く関連づける非局所銀行事業者を導入する。
この点に関して、当社のTMRNetは、現在の機能を長期の時間的依存を見ることができるとともに、複雑な時間的依存を許容できる。
我々は、M2CAIチャレンジデータセットとCholec80データセットの2つのベンチマークビデオデータセットに対するアプローチを広範囲に検証した。
実験結果から, 最先端の手法を高いマージン(67.0%v.s)で連続的に上回り, 優れた性能を示すことができた。
78.9% の Jaccard on Cholec80 データセット)。
関連論文リスト
- MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification [49.06447472006251]
本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
論文 参考訳(メタデータ) (2022-09-22T21:15:58Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - LSTA-Net: Long short-term Spatio-Temporal Aggregation Network for
Skeleton-based Action Recognition [14.078419675904446]
LSTA-Net(英語版) - 新しい短期時空間ネットワーク。
時間的・短期的な情報は、既存の作品ではよく調べられていない。
3つの公開ベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2021-11-01T10:53:35Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - An Enhanced Adversarial Network with Combined Latent Features for
Spatio-Temporal Facial Affect Estimation in the Wild [1.3007851628964147]
本稿では,遅延特徴に基づく時間的モデリングにより,空間的特徴と時間的特徴の両方を効率的に抽出する新しいモデルを提案する。
提案モデルは3つの主要ネットワークから成り,造語生成器,判別器,コンビネータを用いて,適応型アテンションモジュールを実現するために,敵対的な学習環境において訓練を行う。
論文 参考訳(メタデータ) (2021-02-18T04:10:12Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。