Fugu-MT 論文翻訳(概要): EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos

論文の概要: EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos

arxiv url: http://arxiv.org/abs/2405.19644v1
Date: Thu, 30 May 2024 02:53:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 18:26:21.628930
Title: EgoSurgery-Phase: A Dataset of Surgical Phase Recognition from Egocentric Open Surgery Videos
Title（参考訳）: EgoSurgery-Phase: Egocentric Open Surgery Videos による外科的位相認識のデータセット
Authors: Ryo Fujii, Masashi Hatano, Hideo Saito, Hiroki Kajita,
Abstract要約: EgoSurgery-Phaseという位相認識のための新しいエゴセントリックオープン手術ビデオデータセットを導入する。このデータセットは、9つの異なる手術フェーズにまたがる15時間の実際の手術ビデオで構成されている。動画の他に、EgoSurgery-Phaseは視線を提供しています。私たちが知る限り、これは外科的位相認識のための、最初のオープンな手術ビデオデータセットです。
参考スコア（独自算出の注目度）: 7.446152826866544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Surgical phase recognition has gained significant attention due to its potential to offer solutions to numerous demands of the modern operating room. However, most existing methods concentrate on minimally invasive surgery (MIS), leaving surgical phase recognition for open surgery understudied. This discrepancy is primarily attributed to the scarcity of publicly available open surgery video datasets for surgical phase recognition. To address this issue, we introduce a new egocentric open surgery video dataset for phase recognition, named EgoSurgery-Phase. This dataset comprises 15 hours of real open surgery videos spanning 9 distinct surgical phases all captured using an egocentric camera attached to the surgeon's head. In addition to video, the EgoSurgery-Phase offers eye gaze. As far as we know, it is the first real open surgery video dataset for surgical phase recognition publicly available. Furthermore, inspired by the notable success of masked autoencoders (MAEs) in video understanding tasks (e.g., action recognition), we propose a gaze-guided masked autoencoder (GGMAE). Considering the regions where surgeons' gaze focuses are often critical for surgical phase recognition (e.g., surgical field), in our GGMAE, the gaze information acts as an empirical semantic richness prior to guiding the masking process, promoting better attention to semantically rich spatial regions. GGMAE significantly improves the previous state-of-the-art recognition method (6.4% in Jaccard) and the masked autoencoder-based method (3.1% in Jaccard) on EgoSurgery-Phase. The dataset will be released at https://github.com/Fujiry0/EgoSurgery.
Abstract（参考訳）: 現代の手術室の多くの要求に対する解決策を提供する可能性から、外科的位相認識が注目されている。しかし,既存の術式の多くはミニマル侵襲手術(MIS)に集中しており,開腹手術の外科的位相認識が検討されている。この相違は主に、外科的位相認識のための公開手術ビデオデータセットの不足によるものである。この問題に対処するために、EgoSurgery-Phaseという位相認識のための新しいエゴセントリックオープン手術ビデオデータセットを導入する。このデータセットは、9つの異なる手術フェーズにまたがる15時間の実際の手術ビデオで構成されている。ビデオに加えて、EgoSurgery-Phaseは視線を提供する。われわれの知る限りでは、これは外科的位相認識のための、最初の実際のオープンな手術ビデオデータセットである。さらに,映像理解タスク(例えば行動認識)におけるマスク付きオートエンコーダ(MAE)の顕著な成功に着想を得て,視線誘導型マスク付きオートエンコーダ(GGMAE)を提案する。我々のGGMAEでは、外科医の視線が焦点を合わせる領域が外科的位相認識(例えば、外科的領域)に欠かせないことを考えると、視線情報はマスキングを導く前に経験的意味豊かさとして機能し、意味的に豊かな空間領域に注意を向ける。 GGMAEは、EgoSurgery-Phase上の従来の最先端認識法(6.4%)とマスク付きオートエンコーダ(3.1%)を著しく改善する。データセットはhttps://github.com/Fujiry0/EgoSurgery.comでリリースされる。

関連論文リスト

UniSurg: A Video-Native Foundation Model for Universal Understanding of Surgical Videos [81.9180187964947]
我々は,学習パラダイムを画素レベルの再構成から潜在動作予測に移行する基礎モデルUniSurgを提案する。大規模な事前トレーニングを可能にするため,13の解剖学的領域にわたる50源からの3,658時間の動画を含む,これまでで最大規模の手術用ビデオデータセットをキュレートした。これらの結果は、UniSurgを、ユニバーサルでモーション指向の外科的ビデオ理解の新しい標準として確立している。
論文参考訳（メタデータ） (2026-02-05T13:18:33Z)
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment [69.13598421861654]
本稿では,手術におけるビデオ生成モデル評価のための専門家による最初のベンチマークであるSurgVeoを紹介する。腹腔鏡下手術と神経外科手術の手術クリップにゼロショット予測タスクを施した高度なVeo-3モデルを課題とする。以上の結果から,Veo-3は異常な視覚的視認性を示すが,手術的視認性ピラミッドの高位では致命的に失敗することが明らかとなった。
論文参考訳（メタデータ） (2025-11-03T17:28:54Z)
SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-22T02:16:18Z)
Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文参考訳（メタデータ） (2025-04-26T15:37:22Z)
SURGIVID: Annotation-Efficient Surgical Video Object Discovery [42.16556256395392]
手術シーンのセマンティックセグメンテーションのためのアノテーション効率のよいフレームワークを提案する。我々は,画像に基づく自己監督型物体発見法を用いて,外科的ビデオにおいて最も有能なツールや解剖学的構造を同定する。完全教師付きセグメンテーションモデルを用いて,36のアノテーションラベルで強化した無教師付きセットアップでは,同程度のローカライゼーション性能を示す。
論文参考訳（メタデータ） (2024-09-12T07:12:20Z)
Thoracic Surgery Video Analysis for Surgical Phase Recognition [0.08706730566331035]
我々は,11種類の位相からなる胸部手術データセットを用いて,フレームベースおよびビデオクリッピングに基づく位相認識の解析と評価を行った。 ImageNet ViTによる52.31%に比べて,Masked Video Distillation(MVD)は72.9%の精度で優れた性能を示した。
論文参考訳（メタデータ） (2024-06-13T14:47:57Z)
OSSAR: Towards Open-Set Surgical Activity Recognition in Robot-assisted Surgery [13.843251369739908]
本稿では,OSSAR(Open-Set Surgery Activity Recognition)フレームワークについて紹介する。提案手法は超球面逆点戦略を利用して特徴空間における未知クラスと未知クラスとの区別を強化する。我々の主張をサポートするために、公開JIGSAWSデータセットを利用したオープンセットの外科的活動ベンチマークを構築した。
論文参考訳（メタデータ） (2024-02-10T16:23:12Z)
SAR-RARP50: Segmentation of surgical instrumentation and Action Recognition on Robot-Assisted Radical Prostatectomy Challenge [72.97934765570069]
外科的動作認識と意味計測のセグメンテーションのための,最初のマルチモーダルなインビボデータセットを公開し,ロボット補助根治術(RARP)の50の縫合ビデオセグメントを収録した。この課題の目的は、提供されたデータセットのスケールを活用し、外科領域における堅牢で高精度なシングルタスクアクション認識とツールセグメンテーションアプローチを開発することである。合計12チームがこのチャレンジに参加し、7つのアクション認識方法、9つの計器のセグメンテーション手法、そしてアクション認識と計器のセグメンテーションを統合した4つのマルチタスクアプローチをコントリビュートした。
論文参考訳（メタデータ） (2023-12-31T13:32:18Z)
Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase Recognition, and Irregularity Detection [5.47960852753243]
本稿では,コンピュータ化された手術ワークフロー解析を構築するための多様な要件に対処する,白内障手術用ビデオデータセットについて紹介する。我々は、最先端のニューラルネットワークアーキテクチャの性能をベンチマークすることで、アノテーションの品質を検証する。データセットとアノテーションは、論文の受理時に公開される。
論文参考訳（メタデータ） (2023-12-11T10:53:05Z)
Surgical Temporal Action-aware Network with Sequence Regularization for Phase Recognition [28.52533700429284]
本稿では,STAR-Netと命名されたシークエンス正規化を施した手術時行動認識ネットワークを提案する。 MS-STAモジュールは、視覚的特徴と2Dネットワークを犠牲にして、手術行動の空間的および時間的知識を統合する。我々のSTAR-Net with MS-STA and DSR can exploit of visual features of surgery action with effective regularization, which to the excellent performance of surgery phase recognition。
論文参考訳（メタデータ） (2023-11-21T13:43:16Z)
GLSFormer : Gated - Long, Short Sequence Transformer for Step Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2023-07-20T17:57:04Z)
Live image-based neurosurgical guidance and roadmap generation using unsupervised embedding [53.992124594124896]
本稿では,注釈付き脳外科ビデオの大規模なデータセットを活用するライブ画像のみのガイダンスを提案する。生成されたロードマップは、トレーニングセットの手術で取られた一般的な解剖学的パスをエンコードする。 166例の腹腔鏡下腺摘出術を施行し,本法の有効性について検討した。
論文参考訳（メタデータ） (2023-03-31T12:52:24Z)
Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文参考訳（メタデータ） (2022-07-01T14:17:11Z)
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。 4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文参考訳（メタデータ） (2022-04-10T18:51:55Z)
LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文参考訳（メタデータ） (2020-04-21T09:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。