論文の概要: Multi-Modal Unsupervised Pre-Training for Surgical Operating Room
Workflow Analysis
- arxiv url: http://arxiv.org/abs/2207.07894v1
- Date: Sat, 16 Jul 2022 10:32:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 16:44:53.312887
- Title: Multi-Modal Unsupervised Pre-Training for Surgical Operating Room
Workflow Analysis
- Title(参考訳): 手術室ワークフロー分析のためのマルチモード教師なし事前訓練
- Authors: Muhammad Abdullah Jamal, Omid Mohareri
- Abstract要約: 本稿では,単一のビデオフレームや画像に対して,マルチモーダルデータを融合する新しい手法を提案する。
マルチモーダルデータを異なるビューとして扱い、クラスタリングを介して教師なしの方法でモデルを訓練する。
以上の結果から,手術映像の動作認識とセマンティックセグメンテーションにおけるアプローチの優れた性能が示された。
- 参考スコア(独自算出の注目度): 4.866110274299399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven approaches to assist operating room (OR) workflow analysis depend
on large curated datasets that are time consuming and expensive to collect. On
the other hand, we see a recent paradigm shift from supervised learning to
self-supervised and/or unsupervised learning approaches that can learn
representations from unlabeled datasets. In this paper, we leverage the
unlabeled data captured in robotic surgery ORs and propose a novel way to fuse
the multi-modal data for a single video frame or image. Instead of producing
different augmentations (or 'views') of the same image or video frame which is
a common practice in self-supervised learning, we treat the multi-modal data as
different views to train the model in an unsupervised manner via clustering. We
compared our method with other state of the art methods and results show the
superior performance of our approach on surgical video activity recognition and
semantic segmentation.
- Abstract(参考訳): 作業室(あるいは)ワークフロー分析を支援するデータ駆動アプローチは、収集に要する時間と費用のかかる大規模なキュレーションデータセットに依存する。
一方,教師付き学習から,ラベルなしデータセットから表現を学習できる自己教師付き学習アプローチ,あるいは教師なし学習アプローチへのパラダイムシフトが近年見られる。
本稿では,ロボット手術で収集されたラベルなしのデータを活用し,マルチモーダルデータを単一の映像フレームや画像に融合する新しい手法を提案する。
自己教師付き学習において一般的な同じ画像やビデオフレームの異なる拡張(あるいは「ビュー」)を生成する代わりに、マルチモーダルデータを異なるビューとして扱い、クラスタリングを介して教師なしの方法でモデルを訓練する。
本手法を他の術法と比較し,手術的映像活動認識および意味セグメンテーションにおけるアプローチの優れた性能を示す。
関連論文リスト
- Unsupervised Meta-Learning via In-Context Learning [3.4165401459803335]
本稿では,教師なしメタ学習における教師なしメタ学習の一般化能力を活用した新しい手法を提案する。
提案手法は,メタラーニングをシーケンスモデリング問題として再設計し,トランスフォーマーエンコーダがサポート画像からタスクコンテキストを学習できるようにする。
論文 参考訳(メタデータ) (2024-05-25T08:29:46Z) - Efficient Surgical Tool Recognition via HMM-Stabilized Deep Learning [25.146476653453227]
ツール存在検出のためのHMM安定化深層学習手法を提案する。
様々な実験により、提案手法がより低いトレーニングとランニングコストでより良い性能を達成することが確認された。
これらの結果から,過度に複雑化したモデル構造を持つ一般的なディープラーニング手法は,非効率なデータ利用に悩まされる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-07T15:27:35Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data [13.68491474904529]
テキスト強化型ビジュアルディープインフォマティクス(TVDIM)を提案する。
自己教師型学習の中核となる考え方は、複数の視点から抽出された特徴間の相互情報の最大化である。
TVDIMは、同じ画像の集合を処理する際に、従来の視覚的自己監督手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-03T12:36:01Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Multimodal Contrastive Training for Visual Representation Learning [45.94662252627284]
マルチモーダルデータを取り入れた視覚表現の学習手法を開発した。
本手法は,各モダリティおよびセマンティクス情報内の本質的なデータ特性をクロスモーダル相関から同時に利用する。
統合フレームワークにマルチモーダルトレーニングを組み込むことで,より強力で汎用的な視覚的特徴を学習することができる。
論文 参考訳(メタデータ) (2021-04-26T19:23:36Z) - Multimodal Clustering Networks for Self-supervised Learning from
Unlabeled Videos [69.61522804742427]
本稿では,共通のマルチモーダル埋め込み空間を学習する自己監督型トレーニングフレームワークを提案する。
インスタンスレベルのコントラスト学習の概念をマルチモーダルクラスタリングステップで拡張し,モダリティ間の意味的類似性を捉える。
結果として得られる埋め込みスペースは、見えないデータセットや異なるドメインからでも、すべてのモダリティにわたるサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2021-04-26T15:55:01Z) - Multiview Pseudo-Labeling for Semi-supervised Learning from Video [102.36355560553402]
本稿では,映像における半教師付き学習において,外観と動作情報という形で相補的視点を用いた新しい枠組みを提案する。
提案手法は複数のビューを対象とするが,それでも外観と動作の入力間で共有されるモデルを訓練する。
複数のビデオ認識データセットにおいて,本手法は教師あり映像表現学習における従来の標準ベンチマークと比較し,教師あり映像表現学習における従来の手法と比較した。
論文 参考訳(メタデータ) (2021-04-01T17:59:48Z) - Multi-Pretext Attention Network for Few-shot Learning with
Self-supervision [37.6064643502453]
補助的なサンプルに依存しない自己教師付き学習のための,新しい拡張不要な手法を提案する。
さらに,従来の拡張信頼手法とGCを組み合わせるために,特定の注意機構を利用するマルチテキスト注意ネットワーク(MAN)を提案する。
miniImageNetおよびtieredImageNetデータセット上でMANを幅広く評価し、提案手法が最新(SOTA)関連手法より優れていることを実証した。
論文 参考訳(メタデータ) (2021-03-10T10:48:37Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。