論文の概要: LEMON: A Large Endoscopic MONocular Dataset and Foundation Model for Perception in Surgical Settings
- arxiv url: http://arxiv.org/abs/2503.19740v3
- Date: Sun, 03 Aug 2025 23:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.504952
- Title: LEMON: A Large Endoscopic MONocular Dataset and Foundation Model for Perception in Surgical Settings
- Title(参考訳): LEMON : 大きな内視鏡的眼球運動データセットと外科的設定における知覚の基礎モデル
- Authors: Chengan Che, Chao Wang, Tom Vercauteren, Sophia Tsoka, Luis C. Garcia-Peraza-Herrera,
- Abstract要約: LEMONは4K以上の手術用ビデオのコレクションで、さまざまなタイプの高品質な映像を938時間(8500万フレーム)で撮影する。
レモンFM(LemonFM)は、LEMONで事前訓練された基礎モデルである。
レモンとレモンFMは研究コミュニティと産業の基盤となる。
- 参考スコア(独自算出の注目度): 4.912213082028129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional open-access datasets focusing on surgical procedures are often limited by their small size, typically consisting of fewer than 100 videos and less than 30 hours of footage, which leads to poor model generalization. To address this constraint, a new dataset called LEMON has been compiled using a novel aggregation pipeline that collects high-resolution videos from online sources. Featuring an extensive collection of over 4K surgical videos totaling 938 hours (85 million frames) of high-quality footage across multiple procedure types, LEMON offers a comprehensive resource surpassing existing alternatives in size and scope, including two novel downstream tasks. To demonstrate the effectiveness of this diverse dataset, we introduce LemonFM, a foundation model pretrained on LEMON using a novel self-supervised augmented knowledge distillation approach. LemonFM consistently outperforms existing surgical foundation models across four downstream tasks and six datasets, achieving significant gains in surgical phase recognition (+9.5pp, +9.4pp, and +8.4pp of Jaccard in AutoLaparo, M2CAI16, and Cholec80), surgical action recognition (+4.4pp of mAP in CholecT50), surgical tool presence detection (+5.3pp and +10.2pp of mAP in Cholec80 and GraSP), and surgical semantic segmentation (+8.3pp of mDice in CholecSeg8k). LEMON and LemonFM will serve as foundational resources for the research community and industry, accelerating progress in developing autonomous robotic surgery systems and ultimately contributing to safer and more accessible surgical care worldwide.
- Abstract(参考訳): 外科手術に焦点を当てた従来のオープンアクセスデータセットは、通常100本未満のビデオと30時間未満の映像からなる小さなサイズによって制限される。
この制約に対処するため、LEMONと呼ばれる新しいデータセットが、オンラインソースから高解像度のビデオを収集する新しい集約パイプラインを使用してコンパイルされた。
LEMONは、複数のプロシージャタイプにまたがる高品質な映像の合計938時間(8500万フレーム)の4K以上の外科的ビデオの大規模なコレクションを備えており、2つの新しい下流タスクを含む既存の選択肢を超越した包括的なリソースを提供している。
この多種多様なデータセットの有効性を示すために, LEMONで事前訓練された基礎モデルであるLemonFMを紹介する。
レモンFMは4つの下流タスクと6つのデータセットで既存の外科的基礎モデルより優れており、手術的位相認識(+9.5pp、+9.4pp、+8.4pp、AutoLaparo、M2CAI16、Cholec80)、外科的行動認識(+4.4pp、CholecT50)、外科的ツール存在検出(+5.3pp、+10.2pp、Cholec80およびGraSP)、外科的意味的セグメンテーション(+8.3pp、CholecSeg8k)で顕著な成果を上げている。
LEMONとLemonFMは研究コミュニティと産業の基盤として機能し、自律型ロボット手術システムの開発の進展を加速し、最終的には世界中の安全でアクセスしやすい外科医療に貢献する。
関連論文リスト
- SurgVLM: A Large Vision-Language Model and Systematic Evaluation Benchmark for Surgical Intelligence [72.10889173696928]
SurgVLMは,外科的知能に関する最初の大規模視覚言語基盤モデルの一つである。
我々は16種以上の外科的タイプと18の解剖学的構造にまたがる大規模なマルチモーダル手術データベースSurgVLM-DBを構築した。
この包括的データセットに基づいて,Qwen2.5-VLをベースとしたSurgVLMを提案する。
論文 参考訳(メタデータ) (2025-06-03T07:44:41Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - EndoLRMGS: Complete Endoscopic Scene Reconstruction combining Large Reconstruction Modelling and Gaussian Splatting [16.50682401904587]
本研究では, 手術シーンの完全再構築にLRM(Large Restruction Modelling)とGS(Gaussian Splatting)を併用したEndoLRMGSを提案する。
GSは変形可能な組織を再構築し、LRMは手術器具の3Dモデルを生成し、位置とスケールはその後最適化される。
3つの公開データセットから得られた4つの手術ビデオの実験では、ツール3DモデルのIoU(Intersection-over-union)を2Dプロジェクションで40%改善する。
論文 参考訳(メタデータ) (2025-03-28T13:57:12Z) - Recognize Any Surgical Object: Unleashing the Power of Weakly-Supervised Data [15.00025814170182]
RASOは外科的対象を認識するために設計された基礎モデルである。
大規模な未発表の外科的講義ビデオからタグと画像のペアを自動生成する。
外科的行動認識タスクの最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-01-25T21:01:52Z) - Scaling up self-supervised learning for improved surgical foundation models [7.188884777849523]
本研究は外科的コンピュータビジョンの新しいベンチマークを設定できる新しい手術基礎モデルであるSurgeNetXLを紹介する。
SurgeNetXLは、4つの手術手順と3つのタスクにまたがる6つのデータセットで一貫したトップレベルパフォーマンスを実現する。
これらの知見は、データスカースシナリオにおける一般化性と堅牢性を改善するための道を開いた。
論文 参考訳(メタデータ) (2025-01-16T10:07:44Z) - Identifying Surgical Instruments in Pedagogical Cataract Surgery Videos through an Optimized Aggregation Network [1.053373860696675]
本稿では白内障手術ビデオにおける手術器具のリアルタイム同定のためのディープラーニングモデルを提案する。
YOLOV9のアーキテクチャにインスパイアされたこのモデルは、プログラマブル・グラディエント・インフォメーション(PGI)機構と、新しい汎用高効率層アグリゲーション・ネットワーク(Go-ELAN)を採用している。
YOLO v5, v7, v8, v9 vanilla, Laptool, DETR に対して評価された Go-ELAN YOLOV9 モデルは,IoU 0.5 において 615 画像のデータセットで 73.74 の優れた mAP を達成している。
論文 参考訳(メタデータ) (2025-01-05T18:18:52Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning [15.646322352232819]
新しいデータセットであるSurg-QAを作成し、手術用ビデオインストラクションペアを102,000個作成する。
手術知識を学習するために, LLMを用いた2段階質問応答生成パイプラインを提案する。
LLaVA-Surgは、手術ビデオに関するオープンな質問に答えられる新しい視覚言語対話アシスタントだ。
論文 参考訳(メタデータ) (2024-08-15T07:00:20Z) - EndoGSLAM: Real-Time Dense Reconstruction and Tracking in Endoscopic Surgeries using Gaussian Splatting [53.38166294158047]
EndoGSLAMは鏡視下手術の効率的なアプローチであり、合理化表現と微分ガウス化を統合している。
実験の結果,EndoGSLAMは従来型あるいは神経型SLAMアプローチよりも術中可用性と再建品質のトレードオフが良好であることがわかった。
論文 参考訳(メタデータ) (2024-03-22T11:27:43Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery [57.358568111574314]
患者のデータのプライバシは、モデル更新時に古いデータの可用性を制限することが多い。
CL研究は外科領域で2つの重要な問題を見落としていた。
本稿では,多モーダル大規模言語モデル (LLM) と適応重み付け手法を用いて,これらの問題に対処することを提案する。
論文 参考訳(メタデータ) (2024-02-26T15:35:24Z) - MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image
Segmentation [58.53672866662472]
我々はMA-SAMと命名されたモダリティに依存しないSAM適応フレームワークを提案する。
本手法は,重量増加のごく一部だけを更新するためのパラメータ効率の高い微調整戦略に根ざしている。
画像エンコーダのトランスバータブロックに一連の3Dアダプタを注入することにより,事前学習した2Dバックボーンが入力データから3次元情報を抽出することができる。
論文 参考訳(メタデータ) (2023-09-16T02:41:53Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - LoViT: Long Video Transformer for Surgical Phase Recognition [59.06812739441785]
短時間・長期の時間情報を融合する2段階のLong Video Transformer(LoViT)を提案する。
このアプローチは、Colec80とAutoLaparoデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-15T20:06:14Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose
Estimation of Surgical Instruments [66.74633676595889]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - CholecTriplet2021: A benchmark challenge for surgical action triplet
recognition [66.51610049869393]
腹腔鏡下手術における三肢の認識のためにMICCAI 2021で実施した内視鏡的視力障害であるColecTriplet 2021を提案する。
課題の参加者が提案する最先端の深層学習手法の課題設定と評価について述べる。
4つのベースライン法と19の新しいディープラーニングアルゴリズムが提示され、手術ビデオから直接手術行動三重項を認識し、平均平均精度(mAP)は4.2%から38.1%である。
論文 参考訳(メタデータ) (2022-04-10T18:51:55Z) - Automatic Operating Room Surgical Activity Recognition for
Robot-Assisted Surgery [1.1033115844630357]
ロボット支援手術における自動手術活動認識について検討した。
400本のフル長マルチパースペクティブビデオを含む,最初の大規模データセットを収集する。
ビデオに最も認識され,臨床的に関係のある10のクラスで注釈を付ける。
論文 参考訳(メタデータ) (2020-06-29T16:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。