論文の概要: DACAT: Dual-stream Adaptive Clip-aware Time Modeling for Robust Online Surgical Phase Recognition
- arxiv url: http://arxiv.org/abs/2409.06217v1
- Date: Tue, 10 Sep 2024 04:58:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:00:01.276142
- Title: DACAT: Dual-stream Adaptive Clip-aware Time Modeling for Robust Online Surgical Phase Recognition
- Title(参考訳): Dual-stream Adaptive Clip-Aware Time Modeling for Robust Online Surgery Phase Recognition (DACAT)
- Authors: Kaixiang Yang, Qiang Li, Zhiwei Wang,
- Abstract要約: 外科的位相認識は腹腔鏡下手術において重要な要件であり、外科的リスク予測などの様々な臨床応用を可能にする。
DACATは、時間的関係を高めるために、クリップ認識コンテキスト情報を適応的に学習する新しいデュアルストリームモデルである。
- 参考スコア(独自算出の注目度): 9.560659134295866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Surgical phase recognition has become a crucial requirement in laparoscopic surgery, enabling various clinical applications like surgical risk forecasting. Current methods typically identify the surgical phase using individual frame-wise embeddings as the fundamental unit for time modeling. However, this approach is overly sensitive to current observations, often resulting in discontinuous and erroneous predictions within a complete surgical phase. In this paper, we propose DACAT, a novel dual-stream model that adaptively learns clip-aware context information to enhance the temporal relationship. In one stream, DACAT pretrains a frame encoder, caching all historical frame-wise features. In the other stream, DACAT fine-tunes a new frame encoder to extract the frame-wise feature at the current moment. Additionally, a max clip-response read-out (Max-R) module is introduced to bridge the two streams by using the current frame-wise feature to adaptively fetch the most relevant past clip from the feature cache. The clip-aware context feature is then encoded via cross-attention between the current frame and its fetched adaptive clip, and further utilized to enhance the time modeling for accurate online surgical phase recognition. The benchmark results on three public datasets, i.e., Cholec80, M2CAI16, and AutoLaparo, demonstrate the superiority of our proposed DACAT over existing state-of-the-art methods, with improvements in Jaccard scores of at least 4.5%, 4.6%, and 2.7%, respectively. Our code and models have been released at https://github.com/kk42yy/DACAT.
- Abstract(参考訳): 外科的位相認識は腹腔鏡下手術において重要な要件となり,外科的リスク予測などの様々な臨床応用が可能となった。
現在の方法では、時間モデリングの基本的な単位として、個々のフレームワイド埋め込みを用いて外科的位相を特定するのが一般的である。
しかし、このアプローチは現在の観察に過度に敏感であり、しばしば完全な手術段階において不連続かつ誤った予測をもたらす。
本稿では、クリップ認識コンテキスト情報を適応的に学習し、時間的関係を高める新しいデュアルストリームモデルであるDACATを提案する。
1つのストリームでは、DACATはフレームエンコーダを事前訓練し、過去のフレーム単位の機能をすべてキャッシュする。
他方のストリームでは、DACATが新しいフレームエンコーダを微調整して、現在のフレームワイズ機能を抽出する。
さらに、2つのストリームをブリッジするために、現在のフレームワイズ機能を使用して、機能キャッシュから最も関連性の高い過去のクリップを適応的にフェッチするマックスクリップレスポンス・リードアウト(Max-R)モジュールが導入されている。
そして、このクリップ認識コンテキスト特徴を、現在のフレームとそのフェッチされた適応クリップ間のクロスアテンションを介して符号化し、さらに、正確なオンライン外科的位相認識のための時間モデリングを強化するために利用する。
Cholec80、M2CAI16、AutoLaparoの3つの公開データセットのベンチマーク結果は、提案したDACATが既存の最先端メソッドよりも優れていることを示す。
私たちのコードとモデルはhttps://github.com/kk42yy/DACAT.comでリリースされました。
関連論文リスト
- GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - A spatio-temporal network for video semantic segmentation in surgical
videos [11.548181453080087]
ビデオにおける時間的関係をモデル化するための新しいアーキテクチャを提案する。
提案モデルは,セマンティックビデオセグメンテーションを可能にするデコーダを含む。
提案するデコーダは,任意のセグメンテーションエンコーダ上で時間的整合性を改善するために使用することができる。
論文 参考訳(メタデータ) (2023-06-19T16:36:48Z) - SF-TMN: SlowFast Temporal Modeling Network for Surgical Phase
Recognition [0.5669790037378094]
外科的位相認識のためのSlowFast Temporal Modeling Network (SF-TMN)を提案する。
フレームレベルのフルビデオ時間モデリングとセグメントレベルのフルビデオ時間モデリングを実現する。
ASFormerのバックボーンを持つSF-TMNは、最先端のNot End-to-End(TCN)メソッドよりも精度が2.6%、Jaccardスコアが7.4%向上している。
論文 参考訳(メタデータ) (2023-06-15T05:04:29Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Implicit Temporal Modeling with Learnable Alignment for Video
Recognition [95.82093301212964]
本稿では,極めて高い性能を達成しつつ,時間的モデリングの労力を最小限に抑える新しいImplicit Learnable Alignment(ILA)法を提案する。
ILAはKineetics-400の88.7%で、Swin-LやViViT-Hに比べてFLOPははるかに少ない。
論文 参考訳(メタデータ) (2023-04-20T17:11:01Z) - Retrieval of surgical phase transitions using reinforcement learning [11.130363429095048]
オフライン位相遷移検索のための新しい強化学習形式を導入する。
構成上,本モデルでは突発的でノイズの多い相転移は生じないが,連続的な相転移は生じない。
提案手法は,TeCNO と Trans-SVNet を用いた最近のトップパフォーマンスフレームベースアプローチと比較する。
論文 参考訳(メタデータ) (2022-08-01T14:43:15Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。