論文の概要: Open surgery tool classification and hand utilization using a
multi-camera system
- arxiv url: http://arxiv.org/abs/2111.06098v1
- Date: Thu, 11 Nov 2021 08:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 14:36:25.021556
- Title: Open surgery tool classification and hand utilization using a
multi-camera system
- Title(参考訳): マルチカメラシステムを用いたオープン手術ツールの分類と手活用
- Authors: Kristina Basiev, Adam Goldbraikh, Carla M Pugh and Shlomi Laufer
- Abstract要約: 本研究の目的は,オープン手術ツールの分類や,各手にあるツールの特定にマルチカメラビデオを使用することである。
6つのシステムの精度とF1は、トップビュー(0.88/0.88)、クローズアップ(0.81,0.83)、両カメラ(0.9/0.93)、高fps LSTM(0.92/0.93)、低fps LSTM(0.9/0.91)、最終アーキテクチャはマルチカメラ(0.93/0.94)である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: The goal of this work is to use multi-camera video to classify open
surgery tools as well as identify which tool is held in each hand. Multi-camera
systems help prevent occlusions in open surgery video data. Furthermore,
combining multiple views such as a Top-view camera covering the full operative
field and a Close-up camera focusing on hand motion and anatomy, may provide a
more comprehensive view of the surgical workflow. However, multi-camera data
fusion poses a new challenge: a tool may be visible in one camera and not the
other. Thus, we defined the global ground truth as the tools being used
regardless their visibility. Therefore, tools that are out of the image should
be remembered for extensive periods of time while the system responds quickly
to changes visible in the video.
Methods: Participants (n=48) performed a simulated open bowel repair. A
Top-view and a Close-up cameras were used. YOLOv5 was used for tool and hand
detection. A high frequency LSTM with a 1 second window at 30 frames per second
(fps) and a low frequency LSTM with a 40 second window at 3 fps were used for
spatial, temporal, and multi-camera integration.
Results: The accuracy and F1 of the six systems were: Top-view (0.88/0.88),
Close-up (0.81,0.83), both cameras (0.9/0.9), high fps LSTM (0.92/0.93), low
fps LSTM (0.9/0.91), and our final architecture the Multi-camera
classifier(0.93/0.94).
Conclusion: By combining a system with a high fps and a low fps from the
multiple camera array we improved the classification abilities of the global
ground truth.
- Abstract(参考訳): 目的: この研究の目的は, マルチカメラビデオを用いて手術用ツールを分類し, それぞれの手に保持するツールを特定することである。
マルチカメラシステムはオープン手術ビデオデータの閉塞を防ぐ。
さらに、全手術領域をカバーするトップビューカメラと、手の動きや解剖に焦点を当てたクローズアップカメラとを組み合わせることで、外科手術のワークフローをより包括的に見ることができる。
しかし、マルチカメラデータ融合は、新しい課題をもたらしている。
そこで我々は,グローバルグラウンドの真実を,その可視性を問わないツールとして定義した。
したがって、画像外にあるツールは、システムがビデオで見える変化に素早く反応している間に、長時間記憶されなければならない。
方法: 参加者 (n=48) は模擬開腸修復を行った。
トップビューとクローズアップカメラが使用された。
YOLOv5はツールと手の検出に使用された。
30フレーム/秒(fps)の1秒窓を持つ高周波lstmと、3fpsの40秒窓を持つ低周波lstmを用いて空間的、時間的、マルチカメラ統合を行った。
結果: トップビュー (0.88/0.88),クローズアップ (0.81,0.83), 両カメラ (0.9/0.9), 高fps LSTM (0.92/0.93), 低fps LSTM (0.9/0.91), 最終アーキテクチャはマルチカメラ分類器 (0.93/0.94) であった。
結論: マルチカメラアレイから高fpsと低fpsのシステムを組み合わせることにより, 地上真実の分類能力を向上した。
関連論文リスト
- Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - An Examination of Wearable Sensors and Video Data Capture for Human
Exercise Classification [9.674125829493214]
IMUの性能を実世界の2つのデータセット上での人間の運動分類のためのビデオベースアプローチと比較する。
一つのカメラをベースとしたアプローチは、平均10ポイントのIMUを上回り得る。
このアプリケーションでは、簡単に使えるスマートフォンカメラと1台のセンサーを組み合わせることで、人間の運動を効果的に分類することができる。
論文 参考訳(メタデータ) (2023-07-10T12:24:04Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Automatic Detection of Out-of-body Frames in Surgical Videos for Privacy
Protection Using Self-supervised Learning and Minimal Labels [4.356941104145803]
手術映像における身体外フレームを正確に検出するフレームワークを提案する。
我々は大量の未ラベルの内視鏡画像を用いて、自己監督的な方法で意味のある表現を学習する。
論文 参考訳(メタデータ) (2023-03-31T14:53:56Z) - Deep Selection: A Fully Supervised Camera Selection Network for Surgery
Recordings [9.242157746114113]
手術用ランプに複数のカメラを埋め込んだ記録システムを用いる。
組込みカメラは複数のビデオシーケンスを取得できるため,手術の最良の視点でカメラを選択する作業に対処する。
手術現場の面積の大きさに基づいてカメラを選択する従来の方法とは異なり、複数のビデオシーケンスからカメラ選択確率を予測するディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T13:00:08Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation [105.96557764248846]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - Balancing the Budget: Feature Selection and Tracking for Multi-Camera
Visual-Inertial Odometry [3.441021278275805]
因子グラフ最適化に基づくマルチカメラビジュアル慣性オドメトリーシステムを提案する。
攻撃的な動きと突然の照明変化を伴う狭い廊下や暗い空間など、困難な環境における動き追跡に焦点をあてる。
論文 参考訳(メタデータ) (2021-09-13T13:53:09Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。