Fugu-MT 論文翻訳(概要): OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

論文の概要: OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding

arxiv url: http://arxiv.org/abs/2406.07471v1
Date: Tue, 11 Jun 2024 17:18:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 14:55:29.174033
Title: OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding
Title（参考訳）: OphNet:眼科手術ワークフロー理解のための大規模ビデオベンチマーク
Authors: Ming Hu, Peng Xia, Lin Wang, Siyuan Yan, Feilong Tang, Zhongxing Xu, Yimin Luo, Kaimin Song, Jurgen Leitner, Xuelian Cheng, Jun Cheng, Chi Liu, Kaijing Zhou, Zongyuan Ge,
Abstract要約: 我々は,眼科手術ワークフロー理解のための大規模,専門家によるビデオベンチマークであるOphNetを紹介した。 66種類の白内障、緑内障、角膜手術にまたがる2,278本の手術ビデオの多彩なコレクションがあり、102回の手術フェーズと150回の手術の詳細な注記がある。 OphNetは、時間的ローカライズされたアノテーションを提供し、外科的シナリオ内の時間的ローカライゼーションと予測タスクを容易にする。
参考スコア（独自算出の注目度）: 26.962250661485967
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Surgical scene perception via videos are critical for advancing robotic surgery, telesurgery, and AI-assisted surgery, particularly in ophthalmology. However, the scarcity of diverse and richly annotated video datasets has hindered the development of intelligent systems for surgical workflow analysis. Existing datasets for surgical workflow analysis, which typically face challenges such as small scale, a lack of diversity in surgery and phase categories, and the absence of time-localized annotations, limit the requirements for action understanding and model generalization validation in complex and diverse real-world surgical scenarios. To address this gap, we introduce OphNet, a large-scale, expert-annotated video benchmark for ophthalmic surgical workflow understanding. OphNet features: 1) A diverse collection of 2,278 surgical videos spanning 66 types of cataract, glaucoma, and corneal surgeries, with detailed annotations for 102 unique surgical phases and 150 granular operations; 2) It offers sequential and hierarchical annotations for each surgery, phase, and operation, enabling comprehensive understanding and improved interpretability; 3) Moreover, OphNet provides time-localized annotations, facilitating temporal localization and prediction tasks within surgical workflows. With approximately 205 hours of surgical videos, OphNet is about 20 times larger than the largest existing surgical workflow analysis benchmark. Our dataset and code have been made available at: \url{https://github.com/minghu0830/OphNet-benchmark}.
Abstract（参考訳）: ビデオによる手術シーンの認識は、ロボット手術、遠隔手術、AI支援手術、特に眼科において重要である。しかし、多種多様な注釈付きビデオデータセットの不足は、外科的ワークフロー分析のためのインテリジェントシステムの開発を妨げている。手術ワークフロー分析のための既存のデータセットは、通常、小さなスケール、手術やフェーズカテゴリーの多様性の欠如、時間的局所的なアノテーションの欠如といった課題に直面し、複雑で多様な実世界の手術シナリオにおける行動理解とモデル一般化の検証の要件を制限している。このギャップに対処するため,眼科手術ワークフロー理解のための大規模,専門家によるビデオベンチマークであるOphNetを紹介した。 OphNetの機能: 1)白内障,緑内障,角膜手術を対象とする2,278本の多彩な手術ビデオ集。 2) 手術,フェーズ,手術ごとに連続的かつ階層的なアノテーションを提供し,包括的理解と解釈性の向上を可能にする。 3)OphNetは時間的局所化アノテーションを提供し,外科的ワークフロー内での時間的局所化と予測作業を容易にする。 OphNetの手術用ビデオは約205時間で、既存の最大の外科用ワークフロー分析ベンチマークの約20倍の大きさだ。我々のデータセットとコードは、以下の通り利用可能になった。

関連論文リスト

Cataract-LMM: Large-Scale, Multi-Source, Multi-Task Benchmark for Deep Learning in Surgical Video Analysis [4.318540086708654]
2つの手術センターから3000個の白内障手術ビデオのデータセットを作成した。このリソースには、時間的外科的フェーズ、機器と解剖学的構造のインスタンスセグメンテーション、機器間の相互作用の追跡、定量的スキルスコアの4つのアノテーション層がある。データセットの技術的品質は、重要な外科的AIタスクのための一連のベンチマーク実験によってサポートされている。
論文参考訳（メタデータ） (2025-10-18T06:48:29Z)
SurgLLM: A Versatile Large Multimodal Model with Spatial Focus and Temporal Awareness for Surgical Video Understanding [75.00667948967848]
SurgLLMフレームワークは、多用途の手術ビデオ理解タスクに適した、大規模なマルチモーダルモデルである。外科的ビデオの空間的焦点を高めるために,SurgLLMの動画エンコーダのためのSurg-Pretraining(Surg-Pretraining)を最初に考案した。外科的時間的知識をSurgLLMに組み込むため, インターリーブ型マルチモーダル埋め込みによる時間的推論を改善するために, 時間的対応型マルチモーダルチューニング(TM-Tuning)を提案する。
論文参考訳（メタデータ） (2025-08-30T04:36:41Z)
Surg-SegFormer: A Dual Transformer-Based Model for Holistic Surgical Scene Segmentation [6.285713987996377]
Surg-SegFormerは、最先端技術より優れた新しいプロンプトフリーモデルである。堅牢で自動的な手術シーン理解を提供することで,専門医の指導負担を大幅に軽減する。
論文参考訳（メタデータ） (2025-07-06T09:04:25Z)
HieraSurg: Hierarchy-Aware Diffusion Model for Surgical Video Generation [44.37374628674769]
2つの専門拡散モデルからなる階層型手術ビデオ生成フレームワークであるHieraSurgを提案する。このモデルは、既存のセグメンテーションマップが提供される際に特にきめ細かい付着を示しており、実際的な外科的応用の可能性を示している。
論文参考訳（メタデータ） (2025-06-26T14:07:23Z)
SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-06-22T02:16:18Z)
Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。 C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-05-16T14:02:24Z)
Surgeons vs. Computer Vision: A comparative analysis on surgical phase recognition capabilities [65.66373425605278]
自動手術相認識(SPR)は、人工知能(AI)を使用して、手術ワークフローをその重要なイベントに分割する。従来の研究は、短い外科手術と直線的な外科手術に焦点を合わせており、時間的文脈が手術の段階をよりよく分類する専門家の能力に影響を与えるかどうかを探索していない。本研究は,ロボットによる部分腎切除(RAPN)を高度に非直線的に行うことに焦点を当て,これらのギャップに対処する。
論文参考訳（メタデータ） (2025-04-26T15:37:22Z)
EndoChat: Grounded Multimodal Large Language Model for Endoscopic Surgery [52.992415247012296]
手術シーン理解における対話のパラダイムやサブタスクに対処するために,EndoChatを導入する。本モデルは,5つの対話パラダイムと8つの手術シーン理解タスクにまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-01-20T09:12:06Z)
Is Segment Anything Model 2 All You Need for Surgery Video Segmentation? A Systematic Evaluation [25.459372606957736]
本稿では,ゼロショット手術映像分割作業におけるSAM2モデルの性能を体系的に評価する。我々は、異なるプロンプト戦略やロバスト性など、異なる構成で実験を行った。
論文参考訳（メタデータ） (2024-12-31T16:20:05Z)
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining [55.15365161143354]
OphCLIPは、眼科手術ワークフロー理解のための階層的検索強化視覚言語事前学習フレームワークである。 OphCLIPは、短いビデオクリップと詳細な物語記述、構造化タイトルによるフルビデオの調整によって、細粒度と長期の視覚表現の両方を学習する。我々のOphCLIPは、探索されていない大規模なサイレント手術ビデオを活用するために、検索強化事前訓練フレームワークも設計している。
論文参考訳（メタデータ） (2024-11-23T02:53:08Z)
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-30T22:21:05Z)
SURGIVID: Annotation-Efficient Surgical Video Object Discovery [42.16556256395392]
手術シーンのセマンティックセグメンテーションのためのアノテーション効率のよいフレームワークを提案する。我々は,画像に基づく自己監督型物体発見法を用いて,外科的ビデオにおいて最も有能なツールや解剖学的構造を同定する。完全教師付きセグメンテーションモデルを用いて,36のアノテーションラベルで強化した無教師付きセットアップでは,同程度のローカライゼーション性能を示す。
論文参考訳（メタデータ） (2024-09-12T07:12:20Z)
PitVis-2023 Challenge: Workflow Recognition in videos of Endoscopic Pituitary Surgery [46.2901962659261]
The Pituitary Vision (VisVis) 2023 Challengeは、内視鏡下垂体手術のビデオで、コミュニティに認識のステップと計測を課している。これは、より小さな作業スペースのため、他の最小侵襲の手術と比較しても、ユニークなタスクである。 6つの国にまたがる9チームから18のチームがあり、さまざまなディープラーニングモデルを使用していた。
論文参考訳（メタデータ） (2024-09-02T11:38:06Z)
Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase Recognition, and Irregularity Detection [5.47960852753243]
本稿では,コンピュータ化された手術ワークフロー解析を構築するための多様な要件に対処する,白内障手術用ビデオデータセットについて紹介する。我々は、最先端のニューラルネットワークアーキテクチャの性能をベンチマークすることで、アノテーションの品質を検証する。データセットとアノテーションは、論文の受理時に公開される。
論文参考訳（メタデータ） (2023-12-11T10:53:05Z)
Surgical Temporal Action-aware Network with Sequence Regularization for Phase Recognition [28.52533700429284]
本稿では,STAR-Netと命名されたシークエンス正規化を施した手術時行動認識ネットワークを提案する。 MS-STAモジュールは、視覚的特徴と2Dネットワークを犠牲にして、手術行動の空間的および時間的知識を統合する。我々のSTAR-Net with MS-STA and DSR can exploit of visual features of surgery action with effective regularization, which to the excellent performance of surgery phase recognition。
論文参考訳（メタデータ） (2023-11-21T13:43:16Z)
Dynamic Scene Graph Representation for Surgical Video [37.22552586793163]
我々は、シーングラフを、より包括的で意味があり、人間の読みやすい方法で、手術ビデオを表現するために活用する。 CaDISとCATARACTSのセマンティックセグメンテーションからシーングラフデータセットを作成する。モデル決定の妥当性と堅牢性について,手術シーングラフの利点を実証する。
論文参考訳（メタデータ） (2023-09-25T21:28:14Z)
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures [51.78027546947034]
外科的コンピュータビジョンの最近の進歩は、言語意味論に欠ける視覚のみのモデルによって推進されている。本稿では,eラーニングプラットフォームからの手術ビデオ講義を活用し,効果的な視覚情報と言語監督信号を提供する。テキスト書き起こしのための複数自動音声認識システムを用いて,手術固有の言語課題に対処する。
論文参考訳（メタデータ） (2023-07-27T22:38:12Z)
CholecTriplet2021: A benchmark challenge for surgical action triplet recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。 4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文参考訳（メタデータ） (2022-04-10T18:51:55Z)
LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文参考訳（メタデータ） (2020-04-21T09:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。