論文の概要: XiCAD: Camera Activation Detection in the Da Vinci Xi User Interface
- arxiv url: http://arxiv.org/abs/2511.20254v1
- Date: Tue, 25 Nov 2025 12:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.454072
- Title: XiCAD: Camera Activation Detection in the Da Vinci Xi User Interface
- Title(参考訳): XiCAD:Da Vinci Xiユーザインタフェースにおけるカメラアクティベーション検出
- Authors: Alexander C. Jenke, Gregor Just, Claas de Boer, Martin Wagner, Sebastian Bodenstedt, Stefanie Speidel,
- Abstract要約: ロボットによる最小侵襲手術は、単独の術中視覚フィードバックとして内視鏡的映像に依存している。
Da Vinci Xiシステムは、内視鏡アームのアクティベーションを含む各ロボットアームの状態を示すグラフィカルユーザインタフェース(UI)をオーバーレイする。
我々は、カメラタイルの位置を自動的に識別するResNet18畳み込みニューラルネットワークに基づく軽量パイプラインを開発した。
- 参考スコア(独自算出の注目度): 36.952464191650435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Purpose: Robot-assisted minimally invasive surgery relies on endoscopic video as the sole intraoperative visual feedback. The DaVinci Xi system overlays a graphical user interface (UI) that indicates the state of each robotic arm, including the activation of the endoscope arm. Detecting this activation provides valuable metadata such as camera movement information, which can support downstream surgical data science tasks including tool tracking, skill assessment, or camera control automation. Methods: We developed a lightweight pipeline based on a ResNet18 convolutional neural network to automatically identify the position of the camera tile and its activation state within the DaVinci Xi UI. The model was fine-tuned on manually annotated data from the SurgToolLoc dataset and evaluated across three public datasets comprising over 70,000 frames. Results: The model achieved F1-scores between 0.993 and 1.000 for the binary detection of active cameras and correctly localized the camera tile in all cases without false multiple-camera detections. Conclusion: The proposed pipeline enables reliable, real-time extraction of camera activation metadata from surgical videos, facilitating automated preprocessing and analysis for diverse downstream applications. All code, trained models, and annotations are publicly available.
- Abstract(参考訳): 目的: ロボットによる最小侵襲手術は, 術中唯一の視覚フィードバックとして内視鏡的映像に頼っている。
DaVinci Xiシステムは、内視鏡アームのアクティベーションを含む各ロボットアームの状態を示すグラフィカルユーザインタフェース(UI)をオーバーレイする。
このアクティベーションを検出することで、カメラの動き情報などの貴重なメタデータが提供され、ツールトラッキング、スキルアセスメント、カメラ制御自動化など、下流の外科データサイエンスタスクをサポートすることができる。
方法:我々は,カメラタイルの位置と,DaVinci Xi UI内のアクティベーション状態を自動的に識別する,ResNet18畳み込みニューラルネットワークに基づく軽量パイプラインを開発した。
このモデルは、SurgToolLocデータセットから手動でアノテートされたデータに基づいて微調整され、70,000フレーム以上からなる3つの公開データセットで評価された。
結果:F1スコアは、アクティブカメラのバイナリ検出において0.993から1.000で達成し、カメラタイルを誤検出せずに全ケースで正しく位置決めした。
結論: 提案したパイプラインは,手術ビデオからカメラアクティベーションメタデータをリアルタイムに抽出し,自動前処理と多様な下流アプリケーションの解析を容易にする。
すべてのコード、トレーニングされたモデル、アノテーションが公開されている。
関連論文リスト
- Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - Deep Homography Estimation in Dynamic Surgical Scenes for Laparoscopic
Camera Motion Extraction [6.56651216023737]
腹腔鏡下手術の映像から腹腔鏡ホルダーの動作を抽出する手法を提案する。
我々は、新たに取得したカメラモーションフリーda Vinci画像シーケンスのデータセットに、カメラモーションを合成的に付加する。
提案手法は,我々のカメラモーションフリーda Vinci手術データセットから腹腔鏡下手術の映像へ移行し,古典的ホモグラフィー推定手法の双方,精度41%,CPU上でのランタイムを43%上回る結果を得た。
論文 参考訳(メタデータ) (2021-09-30T13:05:37Z) - Activity Recognition with Moving Cameras and Few Training Examples:
Applications for Detection of Autism-Related Headbanging [1.603589863010401]
行動認識コンピュータビジョンアルゴリズムは、自閉症に関連する行動の存在を検出するために使用できる。
ヘッドバンジ検出に適用した場合のアクティビティ認識における現在の特徴表現技術の利点と限界を文書化します。
時間分散畳み込みニューラルネットワークを用いて,ホームビデオのヘッドバンジを検出するコンピュータビジョン分類器を作成する。
論文 参考訳(メタデータ) (2021-01-10T05:37:05Z) - Automatic Operating Room Surgical Activity Recognition for
Robot-Assisted Surgery [1.1033115844630357]
ロボット支援手術における自動手術活動認識について検討した。
400本のフル長マルチパースペクティブビデオを含む,最初の大規模データセットを収集する。
ビデオに最も認識され,臨床的に関係のある10のクラスで注釈を付ける。
論文 参考訳(メタデータ) (2020-06-29T16:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。