論文の概要: A Temporal Convolutional Network-Based Approach and a Benchmark Dataset for Colonoscopy Video Temporal Segmentation
- arxiv url: http://arxiv.org/abs/2502.03430v1
- Date: Wed, 05 Feb 2025 18:21:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:26:35.020203
- Title: A Temporal Convolutional Network-Based Approach and a Benchmark Dataset for Colonoscopy Video Temporal Segmentation
- Title(参考訳): 時間畳み込みネットワークによる大腸内視鏡的時間分割のためのベンチマークデータセット
- Authors: Carlo Biffi, Giorgio Roffo, Pietro Salvagnini, Andrea Cherubini,
- Abstract要約: ColonTCNは、独自の時間的畳み込みブロックを使用して、大腸内視鏡ビデオの時間的セグメンテーションの時間的依存関係を効率的にキャプチャする学習ベースのアーキテクチャである。
ColonTCNは、評価時に低いパラメータ数を維持しながら、分類精度の最先端性を達成する。
腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下手術を施行した。
- 参考スコア(独自算出の注目度): 3.146247125118741
- License:
- Abstract: Following recent advancements in computer-aided detection and diagnosis systems for colonoscopy, the automated reporting of colonoscopy procedures is set to further revolutionize clinical practice. A crucial yet underexplored aspect in the development of these systems is the creation of computer vision models capable of autonomously segmenting full-procedure colonoscopy videos into anatomical sections and procedural phases. In this work, we aim to create the first open-access dataset for this task and propose a state-of-the-art approach, benchmarked against competitive models. We annotated the publicly available REAL-Colon dataset, consisting of 2.7 million frames from 60 complete colonoscopy videos, with frame-level labels for anatomical locations and colonoscopy phases across nine categories. We then present ColonTCN, a learning-based architecture that employs custom temporal convolutional blocks designed to efficiently capture long temporal dependencies for the temporal segmentation of colonoscopy videos. We also propose a dual k-fold cross-validation evaluation protocol for this benchmark, which includes model assessment on unseen, multi-center data.ColonTCN achieves state-of-the-art performance in classification accuracy while maintaining a low parameter count when evaluated using the two proposed k-fold cross-validation settings, outperforming competitive models. We report ablation studies to provide insights into the challenges of this task and highlight the benefits of the custom temporal convolutional blocks, which enhance learning and improve model efficiency. We believe that the proposed open-access benchmark and the ColonTCN approach represent a significant advancement in the temporal segmentation of colonoscopy procedures, fostering further open-access research to address this clinical need.
- Abstract(参考訳): 近年の大腸内視鏡検査におけるコンピュータ支援診断システムの発展に伴い,大腸内視鏡検査の自動化が臨床応用にさらなる革命をもたらすことが期待されている。
これらのシステムの開発において重要で未発見の側面は、完全な大腸内視鏡映像を解剖学的セクションと手続き的なフェーズに自律的に分割できるコンピュータビジョンモデルを作成することである。
本研究では,このタスクのための最初のオープンアクセスデータセットを作成し,競争モデルに対してベンチマークした最先端のアプローチを提案する。
我々は、60の完全大腸内視鏡ビデオから270万フレームのREAL-Colonデータセットに、9つのカテゴリにわたる解剖学的位置と大腸内視鏡フェーズのフレームレベルラベルを付記した。
次に,大腸内視鏡ビデオの時間的セグメント化のための時間的依存関係を効率的に捉えるために,独自の時間的畳み込みブロックを用いた学習ベースアーキテクチャであるColonTCNを提案する。
また、このベンチマークのための2つのk-foldクロスバリデーション評価プロトコルを提案する。このベンチマークは、未確認のマルチセンターデータに対するモデルアセスメントを含む。ColonTCNは、2つのk-foldクロスバリデーション設定を用いて評価すると、低いパラメータ数を保ちながら、分類精度で最先端のパフォーマンスを達成する。
本稿では,この課題に対する洞察を提供するためのアブレーション研究を報告し,学習の促進とモデル効率の向上を図った,カスタム時間的畳み込みブロックの利点を強調した。
腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下腹腔鏡下手術を施行した。
関連論文リスト
- CCIS-Diff: A Generative Model with Stable Diffusion Prior for Controlled Colonoscopy Image Synthesis [7.1892156088672]
拡散アーキテクチャに基づく高品質な大腸内視鏡画像合成のための制御された生成モデルを提案する。
本手法は, 臨床記述に適合するポリープの空間特性(ポリープ位置と形状)と臨床特性の両方を正確に制御する。
論文 参考訳(メタデータ) (2024-11-19T03:30:06Z) - Frontiers in Intelligent Colonoscopy [96.57251132744446]
本研究は, インテリジェント大腸内視鏡技術のフロンティアと, マルチモーダル医療への応用の可能性について検討する。
大腸内視鏡的シーン知覚のための4つのタスクを通して,現在のデータ中心およびモデル中心のランドスケープを評価した。
今後のマルチモーダル時代を受け入れるために,大規模マルチモーダル・インストラクション・チューニング・データセットColoninST,大腸内視鏡で設計されたマルチモーダル言語モデルColonGPT,マルチモーダル・ベンチマークの3つの基本イニシアティブを構築した。
論文 参考訳(メタデータ) (2024-10-22T17:57:12Z) - RT-GAN: Recurrent Temporal GAN for Adding Lightweight Temporal
Consistency to Frame-Based Domain Translation Approaches [3.7873597471903944]
本稿では,個別のフレームベースアプローチに時間的整合性を加えるための,可変時間パラメータRT-GANを用いた軽量な解を提案する。
大腸内視鏡検査における2症例に対するアプローチの有効性について検討した。
論文 参考訳(メタデータ) (2023-10-02T03:13:26Z) - GLSFormer : Gated - Long, Short Sequence Transformer for Step
Recognition in Surgical Videos [57.93194315839009]
本稿では,シーケンスレベルのパッチから時間的特徴を直接学習するための視覚変換器に基づくアプローチを提案する。
本研究では,白内障手術用ビデオデータセットである白内障-101とD99に対するアプローチを広範に評価し,各種の最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2023-07-20T17:57:04Z) - A spatio-temporal network for video semantic segmentation in surgical
videos [11.548181453080087]
ビデオにおける時間的関係をモデル化するための新しいアーキテクチャを提案する。
提案モデルは,セマンティックビデオセグメンテーションを可能にするデコーダを含む。
提案するデコーダは,任意のセグメンテーションエンコーダ上で時間的整合性を改善するために使用することができる。
論文 参考訳(メタデータ) (2023-06-19T16:36:48Z) - Improving Classification Model Performance on Chest X-Rays through Lung
Segmentation [63.45024974079371]
本稿では, セグメンテーションによる異常胸部X線(CXR)識別性能を向上させるための深層学習手法を提案する。
提案手法は,CXR画像中の肺領域を局所化するための深層ニューラルネットワーク(XLSor)と,大規模CXRデータセットで事前学習した自己教師あり運動量コントラスト(MoCo)モデルのバックボーンを用いたCXR分類モデルである。
論文 参考訳(メタデータ) (2022-02-22T15:24:06Z) - Real-time landmark detection for precise endoscopic submucosal
dissection via shape-aware relation network [51.44506007844284]
内視鏡下粘膜下郭清術における高精度かつリアルタイムなランドマーク検出のための形状認識型関係ネットワークを提案する。
まず,ランドマーク間の空間的関係に関する先行知識を直感的に表現する関係キーポイント・ヒートマップを自動生成するアルゴリズムを考案する。
次に、事前知識を学習プロセスに段階的に組み込むために、2つの補完的な正規化手法を開発する。
論文 参考訳(メタデータ) (2021-11-08T07:57:30Z) - Interactive Segmentation for COVID-19 Infection Quantification on
Longitudinal CT scans [40.721386089781895]
病状進行と治療に対する反応を正確に評価するためには,複数の時点にまたがる患者のCTスキャンの連続的セグメンテーションが不可欠である。
既存の医用画像の自動および対話的セグメンテーションモデルでは、単一の時点からのデータのみを使用する(静的)。
本稿では,過去の情報をすべて活用し,フォローアップスキャンのセグメンテーションを改良する,インタラクティブセグメンテーションのための新しい単一ネットワークモデルを提案する。
論文 参考訳(メタデータ) (2021-10-03T08:06:38Z) - NanoNet: Real-Time Polyp Segmentation in Video Capsule Endoscopy and
Colonoscopy [0.6125117548653111]
ビデオカプセル内視鏡と大腸内視鏡画像の分割のための新しいアーキテクチャであるNanoNetを提案する。
提案アーキテクチャはリアルタイム性能を実現し,他の複雑なアーキテクチャに比べて高いセグメンテーション精度を有する。
論文 参考訳(メタデータ) (2021-04-22T15:40:28Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - BiteNet: Bidirectional Temporal Encoder Network to Predict Medical
Outcomes [53.163089893876645]
本稿では,患者の医療旅行におけるコンテキスト依存と時間的関係を捉える,新たな自己注意機構を提案する。
エンド・ツー・エンドの双方向時間エンコーダネットワーク(BiteNet)が患者の旅路の表現を学習する。
実世界のEHRデータセットを用いた2つの教師付き予測と2つの教師なしクラスタリングタスクにおける手法の有効性を評価した。
論文 参考訳(メタデータ) (2020-09-24T00:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。