論文の概要: YOLOv10-Based Multi-Task Framework for Hand Localization and Laterality Classification in Surgical Videos
- arxiv url: http://arxiv.org/abs/2602.18959v1
- Date: Sat, 21 Feb 2026 21:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.418091
- Title: YOLOv10-Based Multi-Task Framework for Hand Localization and Laterality Classification in Surgical Videos
- Title(参考訳): 手術ビデオにおける手動位置分類と横方向分類のためのYOLOv10に基づくマルチタスクフレームワーク
- Authors: Kedi Sun, Le Zhang,
- Abstract要約: 複雑な手術シーンにおいて,手と手の位置を同時に分類する枠組みを提案する。
このモデルはTrauma THOMPSON Challenge 2025 Task 2データセットでトレーニングされている。
- 参考スコア(独自算出の注目度): 5.504955093712013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time hand tracking in trauma surgery is essential for supporting rapid and precise intraoperative decisions. We propose a YOLOv10-based framework that simultaneously localizes hands and classifies their laterality (left or right) in complex surgical scenes. The model is trained on the Trauma THOMPSON Challenge 2025 Task 2 dataset, consisting of first-person surgical videos with annotated hand bounding boxes. Extensive data augmentation and a multi-task detection design improve robustness against motion blur, lighting variations, and diverse hand appearances. Evaluation demonstrates accurate left-hand (67\%) and right-hand (71\%) classification, while distinguishing hands from the background remains challenging. The model achieves an $mAP_{[0.5:0.95]}$ of 0.33 and maintains real-time inference, highlighting its potential for intraoperative deployment. This work establishes a foundation for advanced hand-instrument interaction analysis in emergency surgical procedures.
- Abstract(参考訳): 外傷手術におけるリアルタイムハンドトラッキングは、迅速かつ正確な術中決定を支援するために不可欠である。
複雑な手術シーンにおいて,両手の局所化と側方(左右)の分類を同時に行うYOLOv10ベースのフレームワークを提案する。
このモデルはTrauma THOMPSON Challenge 2025 Task 2のデータセットでトレーニングされており、注記のハンドバウンディングボックスを備えたファーストパーソンの手術ビデオで構成されている。
広範囲なデータ拡張とマルチタスク検出設計により、動きのぼやけ、照明のバリエーション、多様な手の外観に対する堅牢性が改善される。
評価は、正確な左利き (67 %) と右利き (71 %) の分類を示すが、背景との区別は困難である。
このモデルは$mAP_{[0.5:0.95]}$0.33を達成し、リアルタイムな推論を維持し、術中展開の可能性を強調している。
本研究は,緊急手術における手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・手・
関連論文リスト
- UniSurg: A Video-Native Foundation Model for Universal Understanding of Surgical Videos [81.9180187964947]
我々は,学習パラダイムを画素レベルの再構成から潜在動作予測に移行する基礎モデルUniSurgを提案する。
大規模な事前トレーニングを可能にするため,13の解剖学的領域にわたる50源からの3,658時間の動画を含む,これまでで最大規模の手術用ビデオデータセットをキュレートした。
これらの結果は、UniSurgを、ユニバーサルでモーション指向の外科的ビデオ理解の新しい標準として確立している。
論文 参考訳(メタデータ) (2026-02-05T13:18:33Z) - MoE-ACT: Improving Surgical Imitation Learning Policies through Supervised Mixture-of-Experts [1.6646268910871171]
位相構造型外科手術作業のための教師付きMixture-of-Expertsアーキテクチャを提案する。
本稿では,150件未満のデモから,軽量なアクションデコーダポリシを用いて,複雑で長期にわたる操作を学習可能であることを示す。
豚のin vivo手術におけるポリシーロールアウトの予備的結果について報告する。
論文 参考訳(メタデータ) (2026-01-29T16:50:14Z) - A Multi-View Pipeline and Benchmark Dataset for 3D Hand Pose Estimation in Surgery [1.120882117110929]
外科的文脈における3次元手ポーズ推定のための頑健なパイプラインを提案する。
パイプラインは、信頼できる人物検出、全身ポーズ推定、最先端の2Dハンドキーポイント予測を統合する。
68,000枚以上のフレームと3000枚以上の手書き2Dハンドポーズからなる新しい手術用ベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2026-01-22T12:48:24Z) - Surg-SegFormer: A Dual Transformer-Based Model for Holistic Surgical Scene Segmentation [6.285713987996377]
Surg-SegFormerは、最先端技術より優れた新しいプロンプトフリーモデルである。
堅牢で自動的な手術シーン理解を提供することで,専門医の指導負担を大幅に軽減する。
論文 参考訳(メタデータ) (2025-07-06T09:04:25Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [67.8359850515282]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
我々は,SurgVidLMが,映像理解タスクと細粒度ビデオ理解タスクの両方において,同等のパラメータスケールの最先端のVid-LLMを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - Visual-Kinematics Graph Learning for Procedure-agnostic Instrument Tip
Segmentation in Robotic Surgeries [29.201385352740555]
そこで我々は,様々な外科手術を施した楽器の先端を正確に分類する新しいビジュアル・キネマティクスグラフ学習フレームワークを提案する。
具体的には、画像とキネマティクスの両方から楽器部品のリレーショナル特徴を符号化するグラフ学習フレームワークを提案する。
クロスモーダル・コントラッシブ・ロスは、キネマティクスからチップセグメンテーションのイメージへの頑健な幾何学的先行を組み込むように設計されている。
論文 参考訳(メタデータ) (2023-09-02T14:52:58Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Temporally Guided Articulated Hand Pose Tracking in Surgical Videos [22.752654546694334]
アーティキュレートされた手ポーズ追跡は、多くのアプリケーションで使用可能な可能性を秘めている未発見の問題である。
提案する手ポーズ推定モデルであるCondPoseは,その予測に先立ってポーズを組み込むことで,検出と追跡の精度を向上させる。
論文 参考訳(メタデータ) (2021-01-12T03:44:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。