論文の概要: Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video
- arxiv url: http://arxiv.org/abs/2109.13593v1
- Date: Tue, 28 Sep 2021 10:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:38:44.725960
- Title: Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video
- Title(参考訳): ロボット手術映像のリアルタイム機器分割のための効率的なグローバルローカルメモリ
- Authors: Jiacheng Wang, Yueming Jin, Liansheng Wang, Shuntian Cai, Pheng-Ann
Heng, Jing Qin
- Abstract要約: 手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
- 参考スコア(独自算出の注目度): 53.14186293442669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing a real-time and accurate instrument segmentation from videos is of
great significance for improving the performance of robotic-assisted surgery.
We identify two important clues for surgical instrument perception, including
local temporal dependency from adjacent frames and global semantic correlation
in long-range duration. However, most existing works perform segmentation
purely using visual cues in a single frame. Optical flow is just used to model
the motion between only two frames and brings heavy computational cost. We
propose a novel dual-memory network (DMNet) to wisely relate both global and
local spatio-temporal knowledge to augment the current features, boosting the
segmentation performance and retaining the real-time prediction capability. We
propose, on the one hand, an efficient local memory by taking the complementary
advantages of convolutional LSTM and non-local mechanisms towards the relating
reception field. On the other hand, we develop an active global memory to
gather the global semantic correlation in long temporal range to current one,
in which we gather the most informative frames derived from model uncertainty
and frame similarity. We have extensively validated our method on two public
benchmark surgical video datasets. Experimental results demonstrate that our
method largely outperforms the state-of-the-art works on segmentation accuracy
while maintaining a real-time speed.
- Abstract(参考訳): ビデオからリアルタイムかつ正確な楽器セグメンテーションを行うことは、ロボット支援手術の性能を向上させる上で非常に重要である。
そこで本研究では,隣接フレームからの局所的時間依存と長期持続時間におけるグローバル意味相関を含む,手術器具知覚のための2つの重要な手がかりを明らかにする。
しかし、既存の作品の多くは単一のフレームで純粋に視覚的な手がかりを使ってセグメンテーションを行う。
光の流れは2フレーム間だけの動きをモデル化するためにのみ使用され、計算コストが重い。
本稿では,グローバルとローカルの両方の時空間的知識を巧みに関連付け,現在の特徴の強化,セグメンテーション性能の向上,リアルタイム予測能力の維持を図る新しいデュアルメモリネットワーク(dmnet)を提案する。
一方,畳み込みLSTMと非局所メカニズムの相補的な利点を応用して,効率的なローカルメモリを提案する。
一方,モデルの不確実性やフレームの類似性から導かれる最も情報性の高いフレームを収集する,時間的長大域におけるグローバルな意味的相関関係の収集のためのアクティブなグローバルメモリを開発する。
手術用ビデオデータセットを2つの公開ベンチマークで検証した。
実験結果から,本手法は実時間速度を維持しながらセグメンテーション精度を向上することがわかった。
関連論文リスト
- Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Memory Group Sampling Based Online Action Recognition Using Kinetic
Skeleton Features [4.674689979981502]
本稿では,オンライン行動認識問題を扱うための2つの中核的アイデアを提案する。
まず, 空間的特徴と時間的特徴を組み合わせることで, 行動の描写を行う。
次に,従来の動作フレームと現在の動作フレームを組み合わせたメモリグループサンプリング手法を提案する。
第3に、改良された1D CNNネットワークを使用して、サンプルフレームの機能をトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-11-01T16:43:08Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。