論文の概要: TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation
- arxiv url: http://arxiv.org/abs/2502.06708v1
- Date: Mon, 10 Feb 2025 17:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:31:29.215748
- Title: TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation
- Title(参考訳): TEMSET-24K:手術用タイムラインセグメンテーションを用いた多部内視鏡画像のインデクシングのための厳密な注釈付きデータセット
- Authors: Muhammad Bilal, Mahmood Alam, Deepa Bapu, Stephan Korsgen, Neeraj Lal, Simon Bach, Amir M Hajivanand, Muhammed Ali, Kamran Soomro, Iqbal Qasim, Paweł Capik, Aslam Khan, Zaheer Khan, Hunaid Vohra, Massimo Caputo, Andrew Beggs, Adnan Qayyum, Junaid Qadir, Shazad Ashraf,
- Abstract要約: 現在のビデオ分析は、手作業によるインデックス作成に依存している。
TEMSET-24Kは,経肛門的内視鏡的マイクロサマリー(TEMS)ビデオマイクロクリップからなるオープンソースデータセットである。
各クリップは、新しい階層的ラベリング分類を用いて、臨床専門家によって慎重に注釈付けされる。
- 参考スコア(独自算出の注目度): 2.9776992449863613
- License:
- Abstract: Indexing endoscopic surgical videos is vital in surgical data science, forming the basis for systematic retrospective analysis and clinical performance evaluation. Despite its significance, current video analytics rely on manual indexing, a time-consuming process. Advances in computer vision, particularly deep learning, offer automation potential, yet progress is limited by the lack of publicly available, densely annotated surgical datasets. To address this, we present TEMSET-24K, an open-source dataset comprising 24,306 trans-anal endoscopic microsurgery (TEMS) video micro-clips. Each clip is meticulously annotated by clinical experts using a novel hierarchical labeling taxonomy encompassing phase, task, and action triplets, capturing intricate surgical workflows. To validate this dataset, we benchmarked deep learning models, including transformer-based architectures. Our in silico evaluation demonstrates high accuracy (up to 0.99) and F1 scores (up to 0.99) for key phases like Setup and Suturing. The STALNet model, tested with ConvNeXt, ViT, and SWIN V2 encoders, consistently segmented well-represented phases. TEMSET-24K provides a critical benchmark, propelling state-of-the-art solutions in surgical data science.
- Abstract(参考訳): 内視鏡的外科的ビデオのインデクシングは、外科データ科学において不可欠であり、体系的な振り返り分析と臨床成績評価の基礎を形成する。
現在のビデオ分析は、その重要性にもかかわらず、手作業による索引付けに依存している。
コンピュータビジョンの進歩、特にディープラーニングは、自動化の可能性をもっているが、公開され、高密度に注釈付けされた外科的データセットが不足しているため、進歩は制限されている。
TEMSET-24Kは,経肛門的内視鏡的マイクロサージャリー(TEMS)ビデオマイクロクリップからなるオープンソースデータセットである。
各クリップは、フェーズ、タスク、アクショントリプレットを含む新しい階層的な分類を用いて、複雑な外科的ワークフローをキャプチャする、臨床専門家によって慎重に注釈付けされる。
このデータセットを検証するために、トランスフォーマーベースのアーキテクチャを含むディープラーニングモデルをベンチマークした。
我々のin silico評価は、SetupやSuturingといった重要なフェーズに対して高い精度(最大0.99)とF1スコア(最大0.99)を示す。
ConvNeXt、ViT、SWIN V2エンコーダでテストされたSTALNetモデルは、常によく表現されたフェーズを分割する。
TEMSET-24Kは、外科データ科学における最先端のソリューションを推進し、重要なベンチマークを提供する。
関連論文リスト
- VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。
提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。
腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文 参考訳(メタデータ) (2024-10-23T10:28:17Z) - Automated Surgical Skill Assessment in Endoscopic Pituitary Surgery using Real-time Instrument Tracking on a High-fidelity Bench-top Phantom [9.41936397281689]
外科的スキルの改善は一般的に患者の成績の改善に関連しているが、評価は主観的であり、労働集約的である。
内視鏡下垂体手術の鼻相を模範として,シミュレートされた手術に焦点を当てた新しい公開データセットが導入された。
多層パーセプトロンは87%の精度で手術技量(初心者または専門家)を予測し、「可視時間測定のための全手術時間の割合」は高度な手術技量と相関した。
論文 参考訳(メタデータ) (2024-09-25T15:27:44Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Dynamic Scene Graph Representation for Surgical Video [37.22552586793163]
我々は、シーングラフを、より包括的で意味があり、人間の読みやすい方法で、手術ビデオを表現するために活用する。
CaDISとCATARACTSのセマンティックセグメンテーションからシーングラフデータセットを作成する。
モデル決定の妥当性と堅牢性について,手術シーングラフの利点を実証する。
論文 参考訳(メタデータ) (2023-09-25T21:28:14Z) - Hierarchical Semi-Supervised Learning Framework for Surgical Gesture
Segmentation and Recognition Based on Multi-Modality Data [2.8770761243361593]
多モードデータを用いた外科的ジェスチャー分割のための階層型半教師付き学習フレームワークを開発した。
トレーニング済みのResNet-18'バックボーンを備えたTransformerベースのネットワークを使用して,手術ビデオから視覚的特徴を抽出する。
提案手法は、Suturing, Needle Passing, Knot Tyingタスクを含む、公開されているJIGSデータベースのデータを用いて評価されている。
論文 参考訳(メタデータ) (2023-07-31T21:17:59Z) - AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided
Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。
我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。
具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文 参考訳(メタデータ) (2022-08-03T13:17:23Z) - Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical
Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。
本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文 参考訳(メタデータ) (2022-07-20T05:42:19Z) - Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。
医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。
外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文 参考訳(メタデータ) (2022-07-01T14:17:11Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。