論文の概要: CoPESD: A Multi-Level Surgical Motion Dataset for Training Large Vision-Language Models to Co-Pilot Endoscopic Submucosal Dissection
- arxiv url: http://arxiv.org/abs/2410.07540v1
- Date: Thu, 10 Oct 2024 02:22:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 16:26:23.068269
- Title: CoPESD: A Multi-Level Surgical Motion Dataset for Training Large Vision-Language Models to Co-Pilot Endoscopic Submucosal Dissection
- Title(参考訳): CoPESD : 内視鏡下粘膜切開術における大視領域モデルの訓練用多層手術運動データセット
- Authors: Guankun Wang, Han Xiao, Huxin Gao, Renrui Zhang, Long Bai, Xiaoxiao Yang, Zhen Li, Hongsheng Li, Hongliang Ren,
- Abstract要約: 我々は,多段階の手術用運動データセット(CoPESD)を導入し,LVLM(Large Visual-Language Models)をtextbfEndoscopic textbfSubmucosal textbfDissectionのロボットtextbfCo-textbfPilotとして導入した。
CoPESDには17,679枚の画像と32,699個のバウンディングボックスと88,395個のマルチレベルモーションが含まれており、35時間以上のESDビデオがロボット支援と従来の手術の両方に使われている。
- 参考スコア(独自算出の注目度): 41.51336459978475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: submucosal dissection (ESD) enables rapid resection of large lesions, minimizing recurrence rates and improving long-term overall survival. Despite these advantages, ESD is technically challenging and carries high risks of complications, necessitating skilled surgeons and precise instruments. Recent advancements in Large Visual-Language Models (LVLMs) offer promising decision support and predictive planning capabilities for robotic systems, which can augment the accuracy of ESD and reduce procedural risks. However, existing datasets for multi-level fine-grained ESD surgical motion understanding are scarce and lack detailed annotations. In this paper, we design a hierarchical decomposition of ESD motion granularity and introduce a multi-level surgical motion dataset (CoPESD) for training LVLMs as the robotic \textbf{Co}-\textbf{P}ilot of \textbf{E}ndoscopic \textbf{S}ubmucosal \textbf{D}issection. CoPESD includes 17,679 images with 32,699 bounding boxes and 88,395 multi-level motions, from over 35 hours of ESD videos for both robot-assisted and conventional surgeries. CoPESD enables granular analysis of ESD motions, focusing on the complex task of submucosal dissection. Extensive experiments on the LVLMs demonstrate the effectiveness of CoPESD in training LVLMs to predict following surgical robotic motions. As the first multimodal ESD motion dataset, CoPESD supports advanced research in ESD instruction-following and surgical automation. The dataset is available at \href{https://github.com/gkw0010/CoPESD}{https://github.com/gkw0010/CoPESD.}}
- Abstract(参考訳): 粘膜下解離(ESD)は、大規模な病変の迅速な切除、再発率の最小化、長期生存の改善を可能にする。
これらの利点にもかかわらず、ESDは技術的に困難であり、合併症のリスクが高く、熟練した外科医や精密な器具を必要とする。
近年のLVLM(Large Visual-Language Models)の進歩は,ESDの精度を向上し,手続き的リスクを低減するロボットシステムに対して,有望な意思決定支援と予測計画能力を提供する。
しかし、多段階の細粒度のESD手術動作理解のための既存のデータセットは乏しく、詳細なアノテーションが欠如している。
本稿では, ESD運動粒度の階層的分解を設計し, 多段階の手術用運動データセット (CoPESD) を導入し, LVLM をロボット型 \textbf{Co}-\textbf{P}ilot of \textbf{E}ndoscopic \textbf{S}ubmucosal \textbf{D}issection として訓練する。
CoPESDには17,679枚の画像と32,699個のバウンディングボックスと88,395個のマルチレベルモーションが含まれており、35時間以上のESDビデオがロボット支援と従来の手術の両方に使われている。
CoPESDは、粘膜下剥離の複雑なタスクに焦点を当てた、ESD運動のきめ細かい解析を可能にする。
LVLMの大規模な実験は、手術ロボットの動きを予測するためのLVLMの訓練におけるCoPESDの有効性を実証している。
最初のマルチモーダル ESD モーションデータセットとして、CoPESD は ESD 命令追従と外科的自動化の先進的な研究を支援する。
データセットは \href{https://github.com/gkw0010/CoPESD}{https://github.com/gkw0010/CoPESDで入手できる。
(3)
関連論文リスト
- AMNCutter: Affinity-Attention-Guided Multi-View Normalized Cutter for Unsupervised Surgical Instrument Segmentation [7.594796294925481]
我々は,Multi-View Normalized Cutter(m-NCutter)という新しいモジュールを特徴とするラベルフリーな教師なしモデルを提案する。
本モデルでは, パッチ親和性を利用したグラフカット損失関数を用いて, 疑似ラベルの不要化を図った。
我々は、複数のSISデータセットにわたる包括的な実験を行い、事前訓練されたモデルとして、アプローチの最先端(SOTA)パフォーマンス、堅牢性、および例外的なポテンシャルを検証する。
論文 参考訳(メタデータ) (2024-11-06T06:33:55Z) - Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation [51.222684687924215]
手術用ビデオ言語事前学習は、知識領域のギャップとマルチモーダルデータの不足により、独特な課題に直面している。
本稿では,これらの課題に対処するために,階層的知識向上手法と新しい手術的知識向上型ビデオランゲージ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-30T22:21:05Z) - PitRSDNet: Predicting Intra-operative Remaining Surgery Duration in Endoscopic Pituitary Surgery [7.291847156946912]
本稿では,下垂体手術中の残存手術期間(RSD)を予測するためのPitRSDNetを提案する。
PitRSDNet はワークフロー知識を RSD 予測に統合する。1) ステップと RSD を同時に予測するためのマルチタスク学習,2) 時間的学習と推論におけるコンテキストとしての事前ステップ。
PitRSDNetは、88のビデオを備えた新しい内視鏡下垂体手術データセットでトレーニングされ、従来の統計的および機械学習手法よりも競争力のあるパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2024-09-25T15:03:22Z) - Enhancing Weakly Supervised 3D Medical Image Segmentation through
Probabilistic-aware Learning [52.249748801637196]
3次元医用画像のセグメンテーションは、疾患の診断と治療計画に重要な意味を持つ課題である。
近年の深層学習の進歩は、完全に教師付き医療画像のセグメンテーションを著しく強化している。
本稿では,3次元医用画像に特化して設計された,確率的適応型弱教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-05T00:46:53Z) - fMRI-PTE: A Large-scale fMRI Pretrained Transformer Encoder for
Multi-Subject Brain Activity Decoding [54.17776744076334]
本稿では,fMRI事前学習のための革新的オートエンコーダであるfMRI-PTEを提案する。
我々のアプローチでは、fMRI信号を統合された2次元表現に変換し、次元の整合性を確保し、脳の活動パターンを保存する。
コントリビューションには、fMRI-PTEの導入、革新的なデータ変換、効率的なトレーニング、新しい学習戦略、そして我々のアプローチの普遍的な適用性が含まれる。
論文 参考訳(メタデータ) (2023-11-01T07:24:22Z) - Diagnosing Alzheimer's Disease using Early-Late Multimodal Data Fusion
with Jacobian Maps [1.5501208213584152]
アルツハイマー病(英語: Alzheimer's disease、AD)は、老化に影響を及ぼす神経変性疾患である。
本稿では,自動特徴抽出とランダム森林のための畳み込みニューラルネットワークを利用する,効率的な早期融合(ELF)手法を提案する。
脳の容積の微妙な変化を検出するという課題に対処するために、画像をヤコビ領域(JD)に変換する。
論文 参考訳(メタデータ) (2023-10-25T19:02:57Z) - Neural LerPlane Representations for Fast 4D Reconstruction of Deformable
Tissues [52.886545681833596]
LerPlaneは単一視点環境下での手術シーンの高速かつ正確な再構築手法である。
LerPlaneは外科手術を4Dボリュームとして扱い、静的および動的フィールドの明示的な2D平面に分解する。
LerPlaneは静的フィールドを共有し、動的組織モデリングのワークロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-05-31T14:38:35Z) - Robotic Navigation Autonomy for Subretinal Injection via Intelligent
Real-Time Virtual iOCT Volume Slicing [88.99939660183881]
網膜下注射のための自律型ロボットナビゲーションの枠組みを提案する。
提案手法は,機器のポーズ推定方法,ロボットとi OCTシステム間のオンライン登録,およびインジェクションターゲットへのナビゲーションに適した軌道計画から構成される。
ブタ前眼の精度と再現性について実験を行った。
論文 参考訳(メタデータ) (2023-01-17T21:41:21Z) - Brain Lesion Synthesis via Progressive Adversarial Variational
Auto-Encoder [0.9954435559869312]
レーザー間質熱療法(LITT)前後のROIセグメンテーションにより自動的に病変の定量化が可能となった。
CNNはROIセグメンテーションのための最先端のソリューションであるが、トレーニング中に大量のアノテートデータを必要とする。
トレーニングデータセットの量と多様性を両立させるため,進行性脳病変合成フレームワーク(PAVAE)を提案する。
論文 参考訳(メタデータ) (2022-08-05T14:39:06Z) - The SARAS Endoscopic Surgeon Action Detection (ESAD) dataset: Challenges
and methods [15.833413083110903]
本稿では,内視鏡下低侵襲手術における外科医の行動検出問題に取り組むための,最初の大規模データセットであるesadについて述べる。
このデータセットは、前立腺切除術中にキャプチャされた実際の内視鏡的ビデオフレーム上の21のアクションクラスに対するバウンディングボックスアノテーションを提供し、最近のMIDL 2020チャレンジのベースとして使用された。
論文 参考訳(メタデータ) (2021-04-07T15:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。