論文の概要: Identifying Surgical Instruments in Pedagogical Cataract Surgery Videos through an Optimized Aggregation Network
- arxiv url: http://arxiv.org/abs/2501.02618v1
- Date: Sun, 05 Jan 2025 18:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:07:13.979105
- Title: Identifying Surgical Instruments in Pedagogical Cataract Surgery Videos through an Optimized Aggregation Network
- Title(参考訳): 最適化アグリゲーションネットワークを用いた小児白内障手術ビデオにおける手術器具の同定
- Authors: Sanya Sinha, Michal Balazia, Francois Bremond,
- Abstract要約: 本稿では白内障手術ビデオにおける手術器具のリアルタイム同定のためのディープラーニングモデルを提案する。
YOLOV9のアーキテクチャにインスパイアされたこのモデルは、プログラマブル・グラディエント・インフォメーション(PGI)機構と、新しい汎用高効率層アグリゲーション・ネットワーク(Go-ELAN)を採用している。
YOLO v5, v7, v8, v9 vanilla, Laptool, DETR に対して評価された Go-ELAN YOLOV9 モデルは,IoU 0.5 において 615 画像のデータセットで 73.74 の優れた mAP を達成している。
- 参考スコア(独自算出の注目度): 1.053373860696675
- License:
- Abstract: Instructional cataract surgery videos are crucial for ophthalmologists and trainees to observe surgical details repeatedly. This paper presents a deep learning model for real-time identification of surgical instruments in these videos, using a custom dataset scraped from open-access sources. Inspired by the architecture of YOLOV9, the model employs a Programmable Gradient Information (PGI) mechanism and a novel Generally-Optimized Efficient Layer Aggregation Network (Go-ELAN) to address the information bottleneck problem, enhancing Minimum Average Precision (mAP) at higher Non-Maximum Suppression Intersection over Union (NMS IoU) scores. The Go-ELAN YOLOV9 model, evaluated against YOLO v5, v7, v8, v9 vanilla, Laptool and DETR, achieves a superior mAP of 73.74 at IoU 0.5 on a dataset of 615 images with 10 instrument classes, demonstrating the effectiveness of the proposed model.
- Abstract(参考訳): 外科的白内障手術ビデオは、眼科医や研修医にとって、外科的詳細を何度も観察することが不可欠である。
本稿では,オープンアクセスソースから抽出したカスタムデータセットを用いて,これらのビデオ中の手術器具のリアルタイム同定のためのディープラーニングモデルを提案する。
YOLOV9のアーキテクチャにインスパイアされたこのモデルは、プログラマブル・グラディエント・インフォメーション(PGI)機構と、情報ボトルネック問題に対処するために、新しい汎用効率的なレイヤ・アグリゲーション・ネットワーク(Go-ELAN)を採用し、より高い非最大圧縮区間(NMS IoU)スコアで最小平均精度(mAP)を向上させる。
YOLO v5, v7, v8, v9 vanilla, Laptool, DETR に対して評価した Go-ELAN YOLOV9 モデルは,IoU 0.5 の 615 画像のデータセット上で, 73.74 の優れた mAP を達成し,提案モデルの有効性を実証した。
関連論文リスト
- Pediatric Wrist Fracture Detection Using Feature Context Excitation Modules in X-ray Images [0.0]
この作業では4種類のFeature Contexts Excitation-YOLOv8モデルを導入し、それぞれ異なるFCEモジュールを組み込んだ。
GRAZPEDWRI-DXデータセットの実験結果から,提案したYOLOv8+GC-M3モデルにより,mAP@50値が65.78%から66.32%に向上することが示された。
提案した YOLOv8+SE-M3 モデルは,最大 mAP@50 値67.07% を実現し,SOTA 性能を上回った。
論文 参考訳(メタデータ) (2024-10-01T19:45:01Z) - YOLOv8-ResCBAM: YOLOv8 Based on An Effective Attention Module for Pediatric Wrist Fracture Detection [0.0]
本稿では,resblock(ResCBAM)と統合された畳み込みブロックアテンションモジュールを元となるYOLOv8ネットワークアーキテクチャに組み込んだYOLOv8-ResCBAMを提案する。
GRAZPEDWRI-DXデータセットを用いた実験結果から,提案モデルの平均平均精度が0.5(mAP 50)から63.6%から65.8%に増加した。
論文 参考訳(メタデータ) (2024-09-27T15:19:51Z) - Handling Geometric Domain Shifts in Semantic Segmentation of Surgical RGB and Hyperspectral Images [67.66644395272075]
本稿では,幾何学的アウト・オブ・ディストリビューションデータに直面する場合の,最先端のセマンティックセマンティックセマンティクスモデルの最初の解析を行う。
本稿では, 汎用性を高めるために, 有機移植(Organ Transplantation)と呼ばれる拡張技術を提案する。
我々の拡張技術は、RGBデータに対して最大67%、HSIデータに対して90%のSOAモデル性能を改善し、実際のOODテストデータに対して、分配内パフォーマンスのレベルでのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T19:13:15Z) - Global Context Modeling in YOLOv8 for Pediatric Wrist Fracture Detection [0.0]
小児は日常的に手首を負傷することが多いが、骨折を負った放射線科医は手術前にX線画像を分析し解釈する必要がある。
ディープラーニングの開発により、ニューラルネットワークモデルはコンピュータ支援診断(CAD)ツールとして機能するようになった。
本稿では,GCブロックを用いたYOLOv8モデルの改良版であるYOLOv8モデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T14:36:07Z) - YOLOv9 for Fracture Detection in Pediatric Wrist Trauma X-ray Images [0.0]
本稿では, YOLOv9アルゴリズムモデルをコンピュータ支援診断(CAD)として骨折検出タスクに適用した最初の例である。
実験の結果、現在の最先端(SOTA)モデルのmAP 50-95と比較して、YOLOv9モデルは42.16%から43.73%に上昇し、3.7%の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T15:47:54Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - YOLOv8-AM: YOLOv8 Based on Effective Attention Mechanisms for Pediatric Wrist Fracture Detection [0.0]
本研究は,本来のYOLOv8アーキテクチャにアテンション機構を組み込んだYOLOv8-AMを提案する。
ResBlock + CBAM (ResCBAM) に基づくYOLOv8-AMモデルのIoU 50(mAP 50)の平均精度は63.6%から65.8%に向上し,SOTAの性能が向上した。
論文 参考訳(メタデータ) (2024-02-14T17:18:15Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Surgical tool classification and localization: results and methods from
the MICCAI 2022 SurgToolLoc challenge [69.91670788430162]
SurgLoc 2022 チャレンジの結果を示す。
目標は、ツール検出のためにトレーニングされた機械学習モデルにおいて、ツールの存在データを弱いラベルとして活用することだった。
これらの結果を機械学習と手術データ科学の幅広い文脈で論じることで結論付ける。
論文 参考訳(メタデータ) (2023-05-11T21:44:39Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。