論文の概要: Retrieval of surgical phase transitions using reinforcement learning
- arxiv url: http://arxiv.org/abs/2208.00902v1
- Date: Mon, 1 Aug 2022 14:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:00:30.143260
- Title: Retrieval of surgical phase transitions using reinforcement learning
- Title(参考訳): 強化学習による手術相転移の検索
- Authors: Yitong Zhang, Sophia Bano, Ann-Sophie Page, Jan Deprest, Danail
Stoyanov, Francisco Vasconcelos
- Abstract要約: オフライン位相遷移検索のための新しい強化学習形式を導入する。
構成上,本モデルでは突発的でノイズの多い相転移は生じないが,連続的な相転移は生じない。
提案手法は,TeCNO と Trans-SVNet を用いた最近のトップパフォーマンスフレームベースアプローチと比較する。
- 参考スコア(独自算出の注目度): 11.130363429095048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In minimally invasive surgery, surgical workflow segmentation from video
analysis is a well studied topic. The conventional approach defines it as a
multi-class classification problem, where individual video frames are
attributed a surgical phase label.
We introduce a novel reinforcement learning formulation for offline phase
transition retrieval. Instead of attempting to classify every video frame, we
identify the timestamp of each phase transition. By construction, our model
does not produce spurious and noisy phase transitions, but contiguous phase
blocks. We investigate two different configurations of this model. The first
does not require processing all frames in a video (only <60% and <20% of frames
in 2 different applications), while producing results slightly under the
state-of-the-art accuracy. The second configuration processes all video frames,
and outperforms the state-of-the art at a comparable computational cost.
We compare our method against the recent top-performing frame-based
approaches TeCNO and Trans-SVNet on the public dataset Cholec80 and also on an
in-house dataset of laparoscopic sacrocolpopexy. We perform both a frame-based
(accuracy, precision, recall and F1-score) and an event-based (event ratio)
evaluation of our algorithms.
- Abstract(参考訳): 最小限の侵襲手術では、ビデオ解析による手術ワークフローの分割がよく研究されている。
従来の手法では、個々のビデオフレームを手術フェーズラベルとみなすマルチクラス分類問題として定義されている。
オフライン位相遷移検索のための新しい強化学習形式を導入する。
すべてのビデオフレームを分類する代わりに、各フェーズ遷移のタイムスタンプを特定します。
構成上, 本モデルでは, スプリアス相転移やノイズ相転移は生じず, 連続相ブロックを発生させる。
このモデルの2つの異なる構成について検討する。
1つはビデオ中のすべてのフレーム(2つの異なるアプリケーションにおけるフレームの60%と20%のみ)を処理する必要はないが、その結果は最先端の精度よりわずかに低い。
第2の構成は、すべてのビデオフレームを処理し、同等の計算コストで最先端の処理を行う。
提案手法は,公共データセットColec80のTeCNOとTrans-SVNet,および腹腔鏡下サロコポペキシーの社内データセット上での最近のトップパフォーマンスフレームベースアプローチと比較した。
我々は、フレームベース(精度、精度、リコール、F1スコア)とイベントベース(イベント比)の両方でアルゴリズムの評価を行う。
関連論文リスト
- DACAT: Dual-stream Adaptive Clip-aware Time Modeling for Robust Online Surgical Phase Recognition [9.560659134295866]
外科的位相認識は腹腔鏡下手術において重要な要件であり、外科的リスク予測などの様々な臨床応用を可能にする。
DACATは、時間的関係を高めるために、クリップ認識コンテキスト情報を適応的に学習する新しいデュアルストリームモデルである。
論文 参考訳(メタデータ) (2024-09-10T04:58:48Z) - FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Weakly-Supervised Surgical Phase Recognition [19.27227976291303]
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,本法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-26T07:54:47Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Inductive and Transductive Few-Shot Video Classification via Appearance
and Temporal Alignments [17.673345523918947]
本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。
提案手法は, 両方のデータセットにおいて, 従来手法と類似した, あるいは良好な結果が得られる。
論文 参考訳(メタデータ) (2022-07-21T23:28:52Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。