論文の概要: Video-based Surgical Tool-tip and Keypoint Tracking using Multi-frame Context-driven Deep Learning Models
- arxiv url: http://arxiv.org/abs/2501.18361v1
- Date: Thu, 30 Jan 2025 14:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:58.577188
- Title: Video-based Surgical Tool-tip and Keypoint Tracking using Multi-frame Context-driven Deep Learning Models
- Title(参考訳): マルチフレームコンテキスト駆動型ディープラーニングモデルを用いたビデオベースの手術ツールチップとキーポイント追跡
- Authors: Bhargav Ghanekar, Lianne R. Johnson, Jacob L. Laughlin, Marcia K. O'Malley, Ashok Veeraraghavan,
- Abstract要約: 手術ビデオにおけるツールキーポイントのローカライズと追跡を行うための,新しい多フレームコンテキスト駆動型ディープラーニングフレームワークを提案する。
90%のキーポイント検出精度と5.27ピクセルのローカライズRMS誤差を実現する。
このようなフレームワークは、手術器具のキーポイントを正確に追跡する方法を舗装し、さらに下流のユースケースを可能にする。
- 参考スコア(独自算出の注目度): 13.395436436900399
- License:
- Abstract: Automated tracking of surgical tool keypoints in robotic surgery videos is an essential task for various downstream use cases such as skill assessment, expertise assessment, and the delineation of safety zones. In recent years, the explosion of deep learning for vision applications has led to many works in surgical instrument segmentation, while lesser focus has been on tracking specific tool keypoints, such as tool tips. In this work, we propose a novel, multi-frame context-driven deep learning framework to localize and track tool keypoints in surgical videos. We train and test our models on the annotated frames from the 2015 EndoVis Challenge dataset, resulting in state-of-the-art performance. By leveraging sophisticated deep learning models and multi-frame context, we achieve 90\% keypoint detection accuracy and a localization RMS error of 5.27 pixels. Results on a self-annotated JIGSAWS dataset with more challenging scenarios also show that the proposed multi-frame models can accurately track tool-tip and tool-base keypoints, with ${<}4.2$-pixel RMS error overall. Such a framework paves the way for accurately tracking surgical instrument keypoints, enabling further downstream use cases. Project and dataset webpage: https://tinyurl.com/mfc-tracker
- Abstract(参考訳): ロボット手術ビデオにおける手術ツールキーポイントの自動追跡は,スキルアセスメント,専門性評価,安全ゾーンのデライン化など,下流のさまざまなユースケースにとって重要な課題である。
近年、視覚応用のためのディープラーニングの爆発は、手術器具のセグメンテーションに多くの研究をもたらしているが、ツールチップのような特定のツールキーポイントの追跡にはあまり焦点が当てられていない。
本研究では,手術ビデオにおけるツールキーポイントのローカライズと追跡を行うための,新しい多フレームコンテキスト駆動型ディープラーニングフレームワークを提案する。
2015年のEndoVis Challengeデータセットから、アノテーション付きフレーム上でモデルをトレーニングし、テストし、その結果、最先端のパフォーマンスを実現しました。
高度なディープラーニングモデルとマルチフレームコンテキストを活用することで、90%のキーポイント検出精度と5.27ピクセルのローカライズRMS誤差を実現する。
より困難なシナリオを備えた自己注釈付きJIGSAWSデータセットの結果、提案されたマルチフレームモデルはツールチップとツールベースキーポイントを正確に追跡でき、全体として${<}4.2$-pixel RMSエラーを発生させることができる。
このようなフレームワークは、手術器具のキーポイントを正確に追跡する方法を舗装し、さらに下流のユースケースを可能にする。
Project and dataset webpage: https://tinyurl.com/mfc-tracker
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - SurgiTrack: Fine-Grained Multi-Class Multi-Tool Tracking in Surgical Videos [2.3810490830445183]
この研究は、外科的ツールトラッキングの新しい標準を設定し、最小侵襲の手術に対してより適応的で正確な支援を行うためのダイナミックな軌跡を提供する。
本稿では,ツール検出にYOLOv7を活用する新しいディープラーニング手法であるSurgiTrackを提案する。
論文 参考訳(メタデータ) (2024-05-30T17:59:10Z) - Segment Anything Meets Point Tracking [116.44931239508578]
本稿では,SAMと長期点追跡を併用した,ポイント中心の対話型ビデオセグメンテーションの新たな手法を提案する。
ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークで直接評価することで,ポイントベーストラッキングのメリットを強調した。
DAVIS, YouTube-VOS, BDD100Kなどの人気ビデオオブジェクトのセグメンテーションと多目的セグメンテーションのベンチマーク実験により, ポイントベースセグメンテーショントラッカーがより優れたゼロショット性能と効率的なインタラクションをもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:58:01Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - Learning Higher-order Object Interactions for Keypoint-based Video
Understanding [15.52736059969859]
本稿では、キーポイントデータのみをトラッキングとアクション認識に使用するアクションローカライズ手法であるKeyNetについて述べる。
KeyNetは、人間のアクションをわずか5FPSで追跡し分類することができます。
論文 参考訳(メタデータ) (2023-05-16T15:30:33Z) - End-to-end Reinforcement Learning of Robotic Manipulation with Robust
Keypoints Representation [7.374994747693731]
本稿では,ロバストかつ効率的なキーポイント表現を用いて,ロボット操作タスクのためのエンドツーエンド強化学習フレームワークを提案する。
提案手法は,自己教師型オートエンコーダアーキテクチャを用いて,カメラ画像からキーポイントを状態表現として学習する。
本研究では,ロボット操作作業におけるロボット操作の有効性を,異なるシナリオで示す。
論文 参考訳(メタデータ) (2022-02-12T09:58:09Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Pose Estimation for Robot Manipulators via Keypoint Optimization and
Sim-to-Real Transfer [10.369766652751169]
キーポイント検出は多くのロボットアプリケーションにとって重要なビルディングブロックである。
ディープラーニング手法は、マーカーのない方法でユーザ定義キーポイントを検出できる。
これらの課題を克服するキーポイントを定義するための,新たな自律的手法を提案する。
論文 参考訳(メタデータ) (2020-10-15T22:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。