論文の概要: Activity Detection in Long Surgical Videos using Spatio-Temporal Models
- arxiv url: http://arxiv.org/abs/2205.02805v1
- Date: Thu, 5 May 2022 17:34:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 16:14:31.527686
- Title: Activity Detection in Long Surgical Videos using Spatio-Temporal Models
- Title(参考訳): 時空間モデルを用いた長期手術ビデオにおける活動検出
- Authors: Aidean Sharghi, Zooey He, Omid Mohareri
- Abstract要約: 本稿では,最先端のアクティビティ認識と時間モデルの両方について検討する。
手術室の大規模活動認識データセットに,800本以上のフル長の手術ビデオを用いて,これらのモデルをベンチマークした。
ラベル付きデータに制限がある場合であっても、他のタスクで事前トレーニングされたモデルから恩恵を受ければ、既存の作業よりも優れることを示す。
- 参考スコア(独自算出の注目度): 1.2400116527089995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic activity detection is an important component for developing
technologies that enable next generation surgical devices and workflow
monitoring systems. In many application, the videos of interest are long and
include several activities; hence, the deep models designed for such purposes
consist of a backbone and a temporal sequence modeling architecture. In this
paper, we investigate both the state-of-the-art activity recognition and
temporal models to find the architectures that yield the highest performance.
We first benchmark these models on a large-scale activity recognition dataset
in the operating room with over 800 full-length surgical videos. However, since
most other medical applications lack such a large dataset, we further evaluate
our models on the Cholec80 surgical phase segmentation dataset, consisting of
only 40 training videos. For backbone architectures, we investigate both 3D
ConvNets and most recent transformer-based models; for temporal modeling, we
include temporal ConvNets, RNNs, and transformer models for a comprehensive and
thorough study. We show that even in the case of limited labeled data, we can
outperform the existing work by benefiting from models pre-trained on other
tasks.
- Abstract(参考訳): 次世代の手術装置やワークフローモニタリングシステムを実現する技術を開発する上で,自動アクティビティ検出は重要な要素である。
多くのアプリケーションでは、興味あるビデオは長く、いくつかのアクティビティを含んでいるため、そのような目的で設計されたディープモデルは、バックボーンとテンポラリシーケンスモデリングアーキテクチャで構成されている。
本稿では、最先端のアクティビティ認識と時間モデルの両方を用いて、最高のパフォーマンスをもたらすアーキテクチャを探索する。
まず, 手術室の大規模活動認識データセットに, 800本以上のフル長の手術ビデオを用いて評価を行った。
しかし,多くの医用アプリケーションはそのような大規模データセットを欠いているため,訓練ビデオはわずか40本からなるcholec80手術フェーズセグメンテーションデータセットのモデルをさらに評価した。
バックボーンアーキテクチャでは,3次元convnetと最新のtransformer-basedモデルの両方を調査し,時間モデルには時間的convnet,rnn,transformerモデルを含む包括的かつ徹底的な研究を行った。
ラベル付きデータに制限がある場合であっても、他のタスクで事前トレーニングされたモデルから恩恵を受ければ、既存の作業よりも優れることを示す。
関連論文リスト
- Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - Low-resource finetuning of foundation models beats state-of-the-art in
histopathology [3.4577420145036375]
病理組織学データの特徴抽出器として最も人気のある視覚基盤モデルをベンチマークする。
データセットに応じて、単一のGPU上のファンデーションモデルをわずか2時間から3日で微調整することで、最先端の機能抽出器にマッチまたは性能を向上することができる。
これは、大量のリソースとデータセットを持つ機関だけが特徴抽出器を訓練できる、現在の状態からかなり変化している。
論文 参考訳(メタデータ) (2024-01-09T18:46:59Z) - On the Relevance of Temporal Features for Medical Ultrasound Video
Recognition [0.0]
一般的な超音波タスクにおいて,より優れたサンプリング効率を実現するために,新しいマルチヘッドアテンションアーキテクチャを提案する。
アーキテクチャの性能を2つの設定で効率的な3次元CNNビデオ認識モデルと比較する。
以上の結果から,低データ環境下での一般的な超音波作業において,表現的時間非依存モデルの方が最先端の映像認識モデルよりも有効である可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-16T14:35:29Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Automatic Operating Room Surgical Activity Recognition for
Robot-Assisted Surgery [1.1033115844630357]
ロボット支援手術における自動手術活動認識について検討した。
400本のフル長マルチパースペクティブビデオを含む,最初の大規模データセットを収集する。
ビデオに最も認識され,臨床的に関係のある10のクラスで注釈を付ける。
論文 参考訳(メタデータ) (2020-06-29T16:30:31Z) - A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an
FPGA Implementation [1.2387676601792899]
本稿では, プロトオブジェクトの概念に基づくニューロモルフィック, ボトムアップ, ダイナミックビジュアル・サリエンシ・モデルを提案する。
このモデルは、一般的に使用されるビデオデータセット上で人間の目の固定を予測する際に、最先端のダイナミック・ビジュアル・サリエンシ・モデルより優れている。
我々は、Opal Kelly 7350 Kintex-7ボード上で、フィールドプログラマブルゲートアレイによるモデルの実装を紹介する。
論文 参考訳(メタデータ) (2020-02-27T03:31:56Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z) - A Comprehensive Study on Temporal Modeling for Online Action Detection [50.558313106389335]
オンライン行動検出(OAD)は実用的だが難しい課題であり、近年注目を集めている。
本稿では,4種類の時間的モデリング手法を含むOADの時間的モデリングに関する総合的研究を提案する。
本稿では,THUMOS-14 と TVSeries に対して,近年の最先端手法よりも大きなマージンを有するハイブリッド時間モデルを提案する。
論文 参考訳(メタデータ) (2020-01-21T13:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。