Fugu-MT 論文翻訳(概要): TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation

論文の概要: TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation

arxiv url: http://arxiv.org/abs/2502.06708v1
Date: Mon, 10 Feb 2025 17:37:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.572207
Title: TEMSET-24K: Densely Annotated Dataset for Indexing Multipart Endoscopic Videos using Surgical Timeline Segmentation
Title（参考訳）: TEMSET-24K:手術用タイムラインセグメンテーションを用いた多部内視鏡画像のインデクシングのための厳密な注釈付きデータセット
Authors: Muhammad Bilal, Mahmood Alam, Deepa Bapu, Stephan Korsgen, Neeraj Lal, Simon Bach, Amir M Hajivanand, Muhammed Ali, Kamran Soomro, Iqbal Qasim, Paweł Capik, Aslam Khan, Zaheer Khan, Hunaid Vohra, Massimo Caputo, Andrew Beggs, Adnan Qayyum, Junaid Qadir, Shazad Ashraf,
Abstract要約: 現在のビデオ分析は、手作業によるインデックス作成に依存している。 TEMSET-24Kは,経肛門的内視鏡的マイクロサマリー(TEMS)ビデオマイクロクリップからなるオープンソースデータセットである。各クリップは、新しい階層的ラベリング分類を用いて、臨床専門家によって慎重に注釈付けされる。
参考スコア（独自算出の注目度）: 2.9776992449863613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Indexing endoscopic surgical videos is vital in surgical data science, forming the basis for systematic retrospective analysis and clinical performance evaluation. Despite its significance, current video analytics rely on manual indexing, a time-consuming process. Advances in computer vision, particularly deep learning, offer automation potential, yet progress is limited by the lack of publicly available, densely annotated surgical datasets. To address this, we present TEMSET-24K, an open-source dataset comprising 24,306 trans-anal endoscopic microsurgery (TEMS) video micro-clips. Each clip is meticulously annotated by clinical experts using a novel hierarchical labeling taxonomy encompassing phase, task, and action triplets, capturing intricate surgical workflows. To validate this dataset, we benchmarked deep learning models, including transformer-based architectures. Our in silico evaluation demonstrates high accuracy (up to 0.99) and F1 scores (up to 0.99) for key phases like Setup and Suturing. The STALNet model, tested with ConvNeXt, ViT, and SWIN V2 encoders, consistently segmented well-represented phases. TEMSET-24K provides a critical benchmark, propelling state-of-the-art solutions in surgical data science.
Abstract（参考訳）: 内視鏡的外科的ビデオのインデクシングは、外科データ科学において不可欠であり、体系的な振り返り分析と臨床成績評価の基礎を形成する。現在のビデオ分析は、その重要性にもかかわらず、手作業による索引付けに依存している。コンピュータビジョンの進歩、特にディープラーニングは、自動化の可能性をもっているが、公開され、高密度に注釈付けされた外科的データセットが不足しているため、進歩は制限されている。 TEMSET-24Kは,経肛門的内視鏡的マイクロサージャリー(TEMS)ビデオマイクロクリップからなるオープンソースデータセットである。各クリップは、フェーズ、タスク、アクショントリプレットを含む新しい階層的な分類を用いて、複雑な外科的ワークフローをキャプチャする、臨床専門家によって慎重に注釈付けされる。このデータセットを検証するために、トランスフォーマーベースのアーキテクチャを含むディープラーニングモデルをベンチマークした。我々のin silico評価は、SetupやSuturingといった重要なフェーズに対して高い精度(最大0.99)とF1スコア(最大0.99)を示す。 ConvNeXt、ViT、SWIN V2エンコーダでテストされたSTALNetモデルは、常によく表現されたフェーズを分割する。 TEMSET-24Kは、外科データ科学における最先端のソリューションを推進し、重要なベンチマークを提供する。

関連論文リスト

Enhancing Surgical Documentation through Multimodal Visual-Temporal Transformers and Generative AI [15.513949299806582]
外科的ビデオの自動要約は, 手続き的文書の充実, 外科的訓練の支援, 術後分析の促進に不可欠である。本稿では,コンピュータビジョンと大規模言語モデルの最近の進歩を活用して,包括的な映像要約を生成するマルチモーダルフレームワークを提案する。また,50個の腹腔鏡画像からの計測とアクションアノテーションを用いて,ColecT50データセットを用いて本手法の評価を行った。
論文参考訳（メタデータ） (2025-04-28T15:46:02Z)
SASVi - Segment Any Surgical Video [2.330834737588252]
本研究では,フレームワイズMask R-CNN Overseerモデルに基づく新しい再プロンプト機構であるSASViを提案する。このモデルは、シーンの星座が変化すると、基盤モデルSAM2を自動で再起動する。
論文参考訳（メタデータ） (2025-02-12T00:29:41Z)
VISAGE: Video Synthesis using Action Graphs for Surgery [34.21344214645662]
腹腔鏡下手術における映像生成の新しい課題について紹介する。提案手法であるVISAGEは,アクションシーングラフのパワーを利用して,腹腔鏡下手術のシーケンシャルな特徴を捉える。腹腔鏡下手術における高忠実度ビデオ生成について検討した。
論文参考訳（メタデータ） (2024-10-23T10:28:17Z)
CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文参考訳（メタデータ） (2024-03-21T15:13:36Z)
CholecTrack20: A Multi-Perspective Tracking Dataset for Surgical Tools [1.7059333957102913]
既存のデータセットは、外科固有のダイナミックスを捉えるのに失敗した、過度に汎用的な追跡形式に依存している。外科手術における多クラス多ツール追跡のための特別なデータセットであるCholecTrack20を紹介する。データセットは20のフル長の手術ビデオからなり、1fpsで注釈付けされ、35Kフレーム以上と65Kラベルのツールインスタンスが生成される。
論文参考訳（メタデータ） (2023-12-12T15:18:15Z)
Dynamic Scene Graph Representation for Surgical Video [37.22552586793163]
我々は、シーングラフを、より包括的で意味があり、人間の読みやすい方法で、手術ビデオを表現するために活用する。 CaDISとCATARACTSのセマンティックセグメンテーションからシーングラフデータセットを作成する。モデル決定の妥当性と堅牢性について,手術シーングラフの利点を実証する。
論文参考訳（メタデータ） (2023-09-25T21:28:14Z)
Hierarchical Semi-Supervised Learning Framework for Surgical Gesture Segmentation and Recognition Based on Multi-Modality Data [2.8770761243361593]
多モードデータを用いた外科的ジェスチャー分割のための階層型半教師付き学習フレームワークを開発した。トレーニング済みのResNet-18'バックボーンを備えたTransformerベースのネットワークを使用して,手術ビデオから視覚的特徴を抽出する。提案手法は、Suturing, Needle Passing, Knot Tyingタスクを含む、公開されているJIGSデータベースのデータを用いて評価されている。
論文参考訳（メタデータ） (2023-07-31T21:17:59Z)
AutoLaparo: A New Dataset of Integrated Multi-tasks for Image-guided Surgical Automation in Laparoscopic Hysterectomy [42.20922574566824]
ヒステリクトミー手術における学習ベースの自動化を容易にするために,複数の画像に基づく知覚タスクを組み込んだ最初の統合データセットを提示,リリースする。我々のAutoLaparoデータセットは、全子宮摘出術のフル長ビデオに基づいて開発されている。具体的には、外科的ワークフロー認識、腹腔鏡運動予測、機器とキー解剖のセグメンテーションを含む、3つの異なる高相関なタスクがデータセットで定式化されている。
論文参考訳（メタデータ） (2022-08-03T13:17:23Z)
Pseudo-label Guided Cross-video Pixel Contrast for Robotic Surgical Scene Segmentation with Limited Annotations [72.15956198507281]
シーンセグメンテーションを促進するために,新しい擬似ラベル付きクロスビデオコントラスト学習法であるPGV-CLを提案する。本研究では,ロボット外科手術データセットEndoVis18と白内障手術データセットCaDISについて検討した。
論文参考訳（メタデータ） (2022-07-20T05:42:19Z)
Dissecting Self-Supervised Learning Methods for Surgical Computer Vision [51.370873913181605]
一般のコンピュータビジョンコミュニティでは,自己監視学習(SSL)手法が普及し始めている。医学や手術など、より複雑で影響力のある領域におけるSSLメソッドの有効性は、限定的かつ未調査のままである。外科的文脈理解,位相認識,ツール存在検出の2つの基本的なタスクに対して,これらの手法の性能をColec80データセット上で広範囲に解析する。
論文参考訳（メタデータ） (2022-07-01T14:17:11Z)
Relational Graph Learning on Visual and Kinematics Embeddings for Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文参考訳（メタデータ） (2020-11-03T11:00:10Z)
Towards an Automatic Analysis of CHO-K1 Suspension Growth in Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文参考訳（メタデータ） (2020-10-20T08:36:51Z)
LRTD: Long-Range Temporal Dependency based Active Learning for Surgical Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文参考訳（メタデータ） (2020-04-21T09:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。