論文の概要: Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition
- arxiv url: http://arxiv.org/abs/2502.13883v1
- Date: Wed, 19 Feb 2025 17:08:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:44.424692
- Title: Multi-view Video-Pose Pretraining for Operating Room Surgical Activity Recognition
- Title(参考訳): 手術室動作認識のための多視点ビデオプレトレーニング
- Authors: Idris Hamoud, Vinkle Srivastav, Muhammad Abdullah Jamal, Didier Mutter, Omid Mohareri, Nicolas Padoy,
- Abstract要約: 外科的活動認識は、多視点カメラ記録から活動やフェーズを検出する重要なコンピュータビジョンタスクである。
既存のSARモデルは、細粒度のクリニックの動きや多視点の知識を説明できないことが多い。
本稿では, マルチビュー・プレトレーニング・フレームワークであるMultiview Pretraining for Video-Pose Surgery Activity Recognition PreViPSを提案する。
- 参考スコア(独自算出の注目度): 5.787586057526269
- License:
- Abstract: Understanding the workflow of surgical procedures in complex operating rooms requires a deep understanding of the interactions between clinicians and their environment. Surgical activity recognition (SAR) is a key computer vision task that detects activities or phases from multi-view camera recordings. Existing SAR models often fail to account for fine-grained clinician movements and multi-view knowledge, or they require calibrated multi-view camera setups and advanced point-cloud processing to obtain better results. In this work, we propose a novel calibration-free multi-view multi-modal pretraining framework called Multiview Pretraining for Video-Pose Surgical Activity Recognition PreViPS, which aligns 2D pose and vision embeddings across camera views. Our model follows CLIP-style dual-encoder architecture: one encoder processes visual features, while the other encodes human pose embeddings. To handle the continuous 2D human pose coordinates, we introduce a tokenized discrete representation to convert the continuous 2D pose coordinates into discrete pose embeddings, thereby enabling efficient integration within the dual-encoder framework. To bridge the gap between these two modalities, we propose several pretraining objectives using cross- and in-modality geometric constraints within the embedding space and incorporating masked pose token prediction strategy to enhance representation learning. Extensive experiments and ablation studies demonstrate improvements over the strong baselines, while data-efficiency experiments on two distinct operating room datasets further highlight the effectiveness of our approach. We highlight the benefits of our approach for surgical activity recognition in both multi-view and single-view settings, showcasing its practical applicability in complex surgical environments. Code will be made available at: https://github.com/CAMMA-public/PreViPS.
- Abstract(参考訳): 複雑な手術室における外科手術のワークフローを理解するには,臨床医と環境との相互作用を深く理解する必要がある。
外科的活動認識(SAR)は、多視点カメラ記録から活動やフェーズを検出する重要なコンピュータビジョンタスクである。
既存のSARモデルは、細粒度のクリニックの動きやマルチビューの知識を考慮できない場合や、より優れた結果を得るためには、校正されたマルチビューカメラセットアップと高度なポイントクラウド処理が必要である場合が多い。
本研究では,カメラビューに2次元のポーズと視覚を組み込むマルチビュー・プレトレーニング・フレームワークであるMultiview Pretraining for Video-Pose Surgery Activity Recognition PreViPSを提案する。
私たちのモデルはCLIPスタイルのデュアルエンコーダアーキテクチャに従っており、一方のエンコーダは視覚的特徴を処理し、もう一方のエンコーダは人間のポーズ埋め込みをコードする。
連続的な2次元ポーズ座標を扱うために、トークン化された離散表現を導入し、連続的な2次元ポーズ座標を離散的なポーズ埋め込みに変換することにより、デュアルエンコーダフレームワークの効率的な統合を可能にする。
これら2つのモダリティ間のギャップを埋めるため,埋め込み空間内におけるクロスモダリティおよびインモダリティの幾何学的制約を用いた事前学習目標の提案と,表現学習を強化するためにマスク付きポーズトークン予測戦略の導入を提案する。
広汎な実験とアブレーション研究は、強いベースラインよりも改善を示し、一方、2つの異なる手術室データセットにおけるデータ効率実験は、我々のアプローチの有効性をさらに強調する。
複雑な手術環境において,多視点と単視点の両方において,術中活動認識に対するアプローチの利点を強調し,その実用性を示す。
コードは、https://github.com/CAMMA-public/PreViPS.comで入手できる。
関連論文リスト
- Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition [82.88856416080331]
オンライン手書き文字認識(OLHTR)は様々な用途で注目されている。
現在のアプローチは通常、OLHTRをシーケンス認識タスクとして扱い、単一のトラジェクトリまたはイメージエンコーダまたはマルチストリームエンコーダを使用する。
単ストリーム推論プロセスを維持しながら、トレーニング中にマルチモーダルな特徴を学習するコラボレーティブ学習ベースのOLHTRフレームワークCol-OLHTRを提案する。
論文 参考訳(メタデータ) (2025-02-10T02:12:24Z) - Semantics Disentanglement and Composition for Versatile Codec toward both Human-eye Perception and Machine Vision Task [47.7670923159071]
本研究は,人間の目知覚と機械視タスクを同時に強化する革新的セマンティックス Disentanglement と COmposition versatile (DISCOVER) を導入する。
このアプローチはタスク毎のラベルの集合をマルチモーダルな大モデルで導き出し、グラウンドモデルを用いて正確なローカライズを行い、エンコーダ側の画像成分の包括的理解とアンタングル化を可能にする。
復号段階では、これらの符号化されたコンポーネントを生成モデルから先行して活用することにより、画像の総合的な再構成を実現し、人間の視覚知覚とマシンベースの分析タスクの両方のパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-12-24T04:32:36Z) - SurgPETL: Parameter-Efficient Image-to-Surgical-Video Transfer Learning for Surgical Phase Recognition [9.675072799670458]
高次元映像データのための「映像事前学習とビデオ微調整」は、大きなパフォーマンスボトルネックを生じさせる。
本稿では,外科的位相認識のためのパラメータ効率変換学習ベンチマークSurgPETLを提案する。
5つの大規模自然・医療データセットで事前訓練した2つの異なるスケールのViTに基づいて3つの高度な手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-09-30T08:33:50Z) - Self-supervised Learning via Cluster Distance Prediction for Operating Room Context Awareness [44.15562068190958]
オペレーティングルームでは、セマンティックセグメンテーションは、臨床環境を認識したロボットを作るための中核である。
最先端のセマンティックセグメンテーションとアクティビティ認識アプローチは、スケーラブルではない、完全に管理されている。
ToFカメラで撮影したORシーン画像を利用したORシーン理解のための新しい3次元自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2024-07-07T17:17:52Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Not End-to-End: Explore Multi-Stage Architecture for Online Surgical
Phase Recognition [11.234115388848284]
外科的位相認識タスクのための非エンドツーエンドトレーニング戦略を提案する。
非エンドツーエンドのトレーニング戦略では、改良段階は2種類の乱れたシーケンスを別々に訓練する。
改良モデルの3つの選択肢を評価し、分析と解が特定の多段階モデルの選択に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2021-07-10T11:00:38Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - A Robotic 3D Perception System for Operating Room Environment Awareness [3.830091185868436]
手術室(OR)のシーン理解とコンテキスト認識を可能にするダ・ヴィンチ手術システムのための3次元多視点認識システムについて述べる。
このアーキテクチャに基づいて、マルチビュー3Dシーンセマンティックセマンティックセグメンテーションアルゴリズムを作成する。
提案アーキテクチャは、登録エラー(3.3%pm1.4%のオブジェクトカメラ距離)を許容し、シーンセグメンテーション性能を安定的に向上させることができる。
論文 参考訳(メタデータ) (2020-03-20T20:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。