論文の概要: EgoMAGIC- An Egocentric Video Field Medicine Dataset for Training Perception Algorithms
- arxiv url: http://arxiv.org/abs/2604.22036v1
- Date: Thu, 23 Apr 2026 19:49:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.253858
- Title: EgoMAGIC- An Egocentric Video Field Medicine Dataset for Training Perception Algorithms
- Title(参考訳): EgoMAGIC - 知覚アルゴリズムのトレーニングのためのエゴセントリックなビデオ医療データセット
- Authors: Brian VanVoorst, Nicholas Walczak, Christopher Gilleo, Charles Meissner, Fabio Felix, Iran Roman, Bea Steers, Claudio Silva, Yuhan Shen, Zijia Lu, Shih-Po Lee, Ehsan Elhamifar,
- Abstract要約: EgoMAGICはDARPAのPTGプログラムの一部として収集された、エゴセントリックな医療活動データセットである。
このデータセットは、50の医療タスクからなる3,355の動画と、タスク毎に少なくとも50のラベル付きビデオで構成されている。
ビデオの大半はヘッドマウントのステレオカメラで録音され、オーディオは統合された。
- 参考スコア(独自算出の注目度): 24.658859158240315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces EgoMAGIC (Medical Assistance, Guidance, Instruction, and Correction), an egocentric medical activity dataset collected as part of DARPA's Perceptually-enabled Task Guidance (PTG) program. This dataset comprises 3,355 videos of 50 medical tasks, with at least 50 labeled videos per task. The primary objective of the PTG program was to develop virtual assistants integrated into augmented reality headsets to assist users in performing complex tasks. To encourage exploration and research using this dataset, the medical training data has been released along with an action detection challenge focused on eight medical tasks. The majority of the videos were recorded using a head-mounted stereo camera with integrated audio. From this dataset, 40 YOLO models were trained using 1.95 million labels to detect 124 medical objects, providing a robust starting point for developers working on medical AI applications. In addition to introducing the dataset, this paper presents baseline results on action detection for the eight selected medical tasks across three models, with the best-performing method achieving average mAP 0.526. Although this paper primarily addresses action detection as the benchmark, the EgoMAGIC dataset is equally suitable for action recognition, object identification and detection, error detection, and other challenging computer vision tasks. The dataset is accessible via zenodo.org (DOI: 10.5281/zenodo.19239154).
- Abstract(参考訳): 本稿では,DARPAのPTGプログラムの一環として収集されたEgoMAGIC (Medical Assistance, Guidance, Instruction, and Correction)について紹介する。
このデータセットは、50の医療タスクからなる3,355の動画と、タスク毎に少なくとも50のラベル付きビデオで構成されている。
PTGプログラムの主な目的は、ユーザーが複雑なタスクを行うのを助けるために拡張現実ヘッドセットに統合された仮想アシスタントを開発することである。
このデータセットを用いた探索と研究を促進するために、医療訓練データと8つの医療タスクに焦点を当てたアクション検出チャレンジがリリースされた。
ビデオの大半はヘッドマウントのステレオカメラで録音され、オーディオは統合された。
このデータセットから、40のYOLOモデルが1.95万のラベルを使用してトレーニングされ、124の医療オブジェクトを検出し、医療AIアプリケーションに取り組んでいる開発者にとって堅牢な出発点となった。
本論文では, データセットの導入に加えて, 平均mAP 0.526を達成し, 3つのモデルにまたがる8つの選択された医療課題に対する行動検出のベースライン結果を示す。
本稿では、主にアクション検出をベンチマークとして扱うが、EgoMAGICデータセットは、アクション認識、オブジェクトの識別と検出、エラー検出、その他の困難なコンピュータビジョンタスクに等しく適している。
データセットはzenodo.org (DOI: 10.5281/zenodo.19239154)を介してアクセス可能である。
関連論文リスト
- MedGemma Technical Report [75.88152277443179]
MedGemmaは、Gemma 3 4Bと27Bをベースとした医療ビジョン言語基盤モデルの集合体である。
MedGemmaは、画像とテキストの高度な医学的理解と推論を実証する。
また、SigLIPから派生した医用目視エンコーダであるMedSigLIPを紹介する。
論文 参考訳(メタデータ) (2025-07-07T17:01:44Z) - SAR-RARP50: Segmentation of surgical instrumentation and Action
Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。
この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。
合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文 参考訳(メタデータ) (2023-12-31T13:32:18Z) - CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools [1.7059333957102913]
既存のデータセットは、外科固有のダイナミックスを捉えるのに失敗した、過度に汎用的な追跡形式に依存している。
外科手術における多クラス多ツール追跡のための特別なデータセットであるCholecTrack20を紹介する。
データセットは20のフル長の手術ビデオからなり、1fpsで注釈付けされ、35Kフレーム以上と65Kラベルのツールインスタンスが生成される。
論文 参考訳(メタデータ) (2023-12-12T15:18:15Z) - DeepMediX: A Deep Learning-Driven Resource-Efficient Medical Diagnosis
Across the Spectrum [15.382184404673389]
この作業では,この課題に大きく対処する,画期的な,リソース効率の高いモデルである textttDeepMediX が紹介されている。
MobileNetV2アーキテクチャ上に構築されたDeepMediXは、脳MRIスキャンと皮膚がん画像の分類に長けている。
DeepMediXの設計にはフェデレートラーニングの概念も含まれている。
論文 参考訳(メタデータ) (2023-07-01T12:30:58Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - SurgT challenge: Benchmark of Soft-Tissue Trackers for Robotic Surgery [10.895748170187638]
本稿では,MICCAI 2022と共に編成されたSurgT: Surgery Trackingについて紹介する。
参加者は軟組織の動きを追跡するアルゴリズムを開発するタスクを割り当てられた。
課題の最後に、開発したメソッドは以前に隠されたテストサブセットに基づいて評価された。
論文 参考訳(メタデータ) (2023-02-06T18:57:30Z) - Automated Medical Device Display Reading Using Deep Learning Object
Detection [0.0]
本研究は,深層学習物体検出モデルに基づく医療機器からの7セグメントディスプレイの検出と読取を行うエンド・ツー・エンド手法を提案する。
EfficientDetとEfficientDet-liteの2つの状態は、モバイルデジタルカメラで撮影された医療機器の写真からなるデータセットに基づいて微調整された。
訓練されたモデルの評価は高い効率を示し、全てのモデルが98%以上の検出精度と98%以上の分類精度を達成した。
論文 参考訳(メタデータ) (2022-10-04T02:39:45Z) - nnDetection: A Self-configuring Method for Medical Object Detection [4.231636881498698]
nnU-Netは、画像セグメンテーションの課題に対して、大きな成功を収めた。
本研究では,医療対象検出のための構成プロセスの体系化と自動化を行う。
結果の自己設定方法であるnnDetectionは、手動による介入なしに、任意の医学的検出問題に適応する。
論文 参考訳(メタデータ) (2021-06-01T21:55:03Z) - Volumetric Attention for 3D Medical Image Segmentation and Detection [53.041572035020344]
3次元医用画像のセグメンテーションと検出のためのボリュームアテンション(VA)モジュールを提案する。
VAアテンションはビデオ処理の最近の進歩にインスパイアされ、2.5Dネットワークはz方向のコンテキスト情報を活用することができる。
そのMask R-CNNへの統合は、肝腫瘍(LiTS)チャレンジにおける最先端のパフォーマンスを可能にすることが示されている。
論文 参考訳(メタデータ) (2020-04-04T18:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。