論文の概要: SurgMAE: Masked Autoencoders for Long Surgical Video Analysis
- arxiv url: http://arxiv.org/abs/2305.11451v1
- Date: Fri, 19 May 2023 06:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:01:59.129311
- Title: SurgMAE: Masked Autoencoders for Long Surgical Video Analysis
- Title(参考訳): SurgMAE:長期手術用ビデオ分析用マスク付きオートエンコーダ
- Authors: Muhammad Abdullah Jamal, Omid Mohareri
- Abstract要約: マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
- 参考スコア(独自算出の注目度): 4.866110274299399
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: There has been a growing interest in using deep learning models for
processing long surgical videos, in order to automatically detect
clinical/operational activities and extract metrics that can enable workflow
efficiency tools and applications. However, training such models require vast
amounts of labeled data which is costly and not scalable. Recently,
self-supervised learning has been explored in computer vision community to
reduce the burden of the annotation cost. Masked autoencoders (MAE) got the
attention in self-supervised paradigm for Vision Transformers (ViTs) by
predicting the randomly masked regions given the visible patches of an image or
a video clip, and have shown superior performance on benchmark datasets.
However, the application of MAE in surgical data remains unexplored. In this
paper, we first investigate whether MAE can learn transferrable representations
in surgical video domain. We propose SurgMAE, which is a novel architecture
with a masking strategy based on sampling high spatio-temporal tokens for MAE.
We provide an empirical study of SurgMAE on two large scale long surgical video
datasets, and find that our method outperforms several baselines in low data
regime. We conduct extensive ablation studies to show the efficacy of our
approach and also demonstrate it's superior performance on UCF-101 to prove
it's generalizability in non-surgical datasets as well.
- Abstract(参考訳): ワークフロー効率のツールやアプリケーションを可能にするメトリクスを抽出し、臨床・手術活動を自動的に検出するために、長い手術ビデオの処理にディープラーニングモデルを使用することへの関心が高まっている。
しかし、そのようなモデルのトレーニングには膨大な量のラベル付きデータが必要です。
近年,コンピュータビジョンコミュニティにおいて,アノテーションコストの負担を軽減するために,自己教師付き学習が研究されている。
Masked Autoencoders (MAE) は、画像やビデオクリップの可視パッチからランダムにマスキングされた領域を予測することで、視覚変換器(ViT)の自己監督パラダイムに注目され、ベンチマークデータセット上で優れたパフォーマンスを示している。
しかし, 外科的データへのMAEの適用は未定である。
本稿では, mae が手術ビデオ領域で転送可能表現を学習できるかどうかを最初に検討する。
本稿では,MAEのための高時空間トークンのサンプリングに基づくマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
本研究では,SurgMAEを2つの大規模長期手術用ビデオデータセット上で実証的に検討し,本手法が低データレシエーションにおいていくつかのベースラインを上回っていることを見出した。
本研究は,本手法の有効性を示すため,広範囲にわたるアブレーション研究を行い,UCF-101の優れた性能を示した。
関連論文リスト
- Beyond Labels: A Self-Supervised Framework with Masked Autoencoders and Random Cropping for Breast Cancer Subtype Classification [0.3374875022248865]
この領域でコンピュータビジョンタスクに適した自己教師型埋め込みを学習する。
私たちはWSIから自動的に大規模なデータセットを生成します。
我々は、BRACSデータセット上でのモデルの性能を評価し、既存のベンチマークと比較する。
論文 参考訳(メタデータ) (2024-10-15T19:13:05Z) - Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology [2.7280901660033643]
本研究は、弱教師付き分類器と自己教師付きマスク付きオートエンコーダ(MAE)のスケーリング特性について検討する。
以上の結果から,ViTをベースとしたMAEは,様々なタスクにおいて弱い教師付き分類器よりも優れており,公的なデータベースから得られた既知の生物学的関係を思い出すと,11.5%の相対的な改善が達成されることがわかった。
我々は、異なる数のチャネルと順序の画像を推論時に入力できる新しいチャネルに依存しないMAEアーキテクチャ(CA-MAE)を開発した。
論文 参考訳(メタデータ) (2024-04-16T02:42:06Z) - Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。
様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-07T15:27:35Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - MAE-DFER: Efficient Masked Autoencoder for Self-supervised Dynamic
Facial Expression Recognition [47.29528724322795]
MAE-DFERは動的表情を学習するための新しい自己教師型手法である。
大量のラベルのないデータに基づいて、大規模な自己教師付き事前トレーニングを使用する。
常に最先端の教師付きメソッドより優れています。
論文 参考訳(メタデータ) (2023-07-05T12:08:56Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。