論文の概要: Colonoscopy Landmark Detection using Vision Transformers
- arxiv url: http://arxiv.org/abs/2209.11304v1
- Date: Thu, 22 Sep 2022 20:39:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 13:26:42.739460
- Title: Colonoscopy Landmark Detection using Vision Transformers
- Title(参考訳): 視覚トランスフォーマーを用いた大腸内視鏡像の検出
- Authors: Aniruddha Tamhane and Tse'ela Mida and Erez Posner and Moshe Bouhnik
- Abstract要約: 手順中に撮影された120のビデオと2416のスナップショットのデータセットを収集しました。
我々は,視覚変換器を用いたランドマーク検出アルゴリズムを開発した。
テストデータセットのスナップショットに視覚変換器のバックボーンで82%の精度を報告した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Colonoscopy is a routine outpatient procedure used to examine the colon and
rectum for any abnormalities including polyps, diverticula and narrowing of
colon structures. A significant amount of the clinician's time is spent in
post-processing snapshots taken during the colonoscopy procedure, for
maintaining medical records or further investigation. Automating this step can
save time and improve the efficiency of the process. In our work, we have
collected a dataset of 120 colonoscopy videos and 2416 snapshots taken during
the procedure, that have been annotated by experts. Further, we have developed
a novel, vision-transformer based landmark detection algorithm that identifies
key anatomical landmarks (the appendiceal orifice, ileocecal valve/cecum
landmark and rectum retroflexion) from snapshots taken during colonoscopy. Our
algorithm uses an adaptive gamma correction during preprocessing to maintain a
consistent brightness for all images. We then use a vision transformer as the
feature extraction backbone and a fully connected network based classifier head
to categorize a given frame into four classes: the three landmarks or a
non-landmark frame. We compare the vision transformer (ViT-B/16) backbone with
ResNet-101 and ConvNext-B backbones that have been trained similarly. We report
an accuracy of 82% with the vision transformer backbone on a test dataset of
snapshots.
- Abstract(参考訳): 大腸内視鏡は,大腸および直腸のポリープ,憩室,大腸構造の狭さなどの異常を検査するために,日常的な外来手術である。
臨床医のかなりの時間は、大腸内視鏡手術中に撮影された後、医療記録の維持やさらなる調査に費やされる。
このステップの自動化は、時間を節約し、プロセスの効率を改善する。
本研究では,120本の大腸内視鏡的ビデオと2416枚のスナップショットのデータセットを収集し,専門家が注釈を付けている。
さらに,大腸内視鏡検査で得られた画像から,重要な解剖学的ランドマーク(虫垂,回盲部弁,盲腸,直腸反射)を同定する,視覚変換器を用いた新しいランドマーク検出アルゴリズムを開発した。
本アルゴリズムは,前処理時に適応ガンマ補正を行い,全画像の輝度を一定に維持する。
次に、特徴抽出バックボーンとして視覚変換器と完全に接続されたネットワークベース分類器ヘッドを使用して、与えられたフレームを4つのクラスに分類する。
同様にトレーニングされたResNet-101とConvNext-Bのバックボーンと、ViT-B/16のバックボーンを比較した。
テストデータセットのスナップショットに視覚変換器のバックボーンで82%の精度を報告した。
関連論文リスト
- Real-time guidewire tracking and segmentation in intraoperative x-ray [52.51797358201872]
リアルタイムガイドワイヤ分割と追跡のための2段階のディープラーニングフレームワークを提案する。
第1段階では、ヨロフ5検出器が元のX線画像と合成画像を使って訓練され、ターゲットのガイドワイヤのバウンディングボックスを出力する。
第2段階では、検出された各バウンディングボックスにガイドワイヤを分割するために、新規で効率的なネットワークが提案されている。
論文 参考訳(メタデータ) (2024-04-12T20:39:19Z) - Semantic Parsing of Colonoscopy Videos with Multi-Label Temporal
Networks [2.788533099191487]
大腸内視鏡画像の自動解析法を提案する。
この手法は、教師なしおよび教師なしのレシエーションで訓練された、新しいDL多ラベル時間分割モデルを使用する。
そこで本研究では,300本以上の注記式大腸内視鏡検査装置を用いて,各部位の相対的重要性について検討した。
論文 参考訳(メタデータ) (2023-06-12T08:46:02Z) - ColonMapper: topological mapping and localization for colonoscopy [7.242530499990028]
そこで本研究では,実人の大腸で動作可能なトポロジカルマッピングとローカライゼーションシステムを提案する。
マップは、各ノードが実際のイメージのセットでコロン位置をコードするグラフであり、エッジはノード間のトラバーサビリティを表す。
ColonMapperは、マップを自律的に構築し、それに対して2つの重要なユースケースでローカライズすることができる。
論文 参考訳(メタデータ) (2023-05-09T15:32:50Z) - FetReg2021: A Challenge on Placental Vessel Segmentation and
Registration in Fetoscopy [52.3219875147181]
2-Twin Transfusion Syndrome (TTTS) に対するレーザー光凝固法が広く採用されている。
このプロシージャは、視野が限られたこと、フェトスコープの操作性が悪いこと、視認性が悪いこと、照明の変動性のために特に困難である。
コンピュータ支援介入(CAI)は、シーン内の重要な構造を特定し、ビデオモザイクを通して胎児の視野を広げることで、外科医に意思決定支援と文脈認識を提供する。
7つのチームがこの課題に参加し、そのモデルパフォーマンスを、6フェットから658ピクセルの注釈付き画像の見当たらないテストデータセットで評価した。
論文 参考訳(メタデータ) (2022-06-24T23:44:42Z) - Bimodal Camera Pose Prediction for Endoscopy [23.12495584329767]
大腸内視鏡におけるカメラポーズ推定のための合成データセットSimColを提案する。
我々のデータセットは実際の大腸内視鏡の動きを再現し、既存の方法の欠点を強調します。
シミュレーション大腸内視鏡による18kのRGB画像とそれに対応する深度とカメラのポーズを公開し,Unityのデータ生成環境を一般公開した。
論文 参考訳(メタデータ) (2022-04-11T09:34:34Z) - A Long Short-term Memory Based Recurrent Neural Network for
Interventional MRI Reconstruction [50.1787181309337]
本稿では,畳み込み長短期記憶(Conv-LSTM)に基づくリカレントニューラルネットワーク(Recurrent Neural Network, RNN)を提案する。
提案アルゴリズムは,DBSのリアルタイムi-MRIを実現する可能性があり,汎用的なMR誘導介入に使用できる。
論文 参考訳(メタデータ) (2022-03-28T14:03:45Z) - CyTran: A Cycle-Consistent Transformer with Multi-Level Consistency for
Non-Contrast to Contrast CT Translation [56.622832383316215]
コントラストCTを非コントラストCTに変換する手法を提案する。
提案手法は、CyTranを略して、サイクル一貫性のある生成逆転変換器に基づいている。
実験の結果、CyTranは競合するすべての手法より優れています。
論文 参考訳(メタデータ) (2021-10-12T23:25:03Z) - Deep Learning-based Biological Anatomical Landmark Detection in
Colonoscopy Videos [21.384094148149003]
大腸内視鏡画像における生物学的な解剖学的ランドマークを検出するための,新しい深層学習に基づくアプローチを提案する。
平均検出精度は99.75%に達し、平均IoUは0.91であり、予測されるランドマーク周期と地上の真実との高い類似性を示している。
論文 参考訳(メタデータ) (2021-08-06T05:52:32Z) - FoldIt: Haustral Folds Detection and Segmentation in Colonoscopy Videos [6.187780920448871]
ハウスタルフォールド(Haustral fold)は、光学的大腸内視鏡法において、高いポリープミス率に関係した結腸壁隆起である。
本報告では,光学的大腸内視鏡画像からハスタルフォールドオーバーレイを用いた仮想大腸内視鏡画像への特徴持続的画像変換のための,新たな生成逆境ネットワークFoldItを提案する。
論文 参考訳(メタデータ) (2021-06-23T16:41:10Z) - Colonoscopy Polyp Detection: Domain Adaptation From Medical Report
Images to Real-time Videos [76.37907640271806]
大腸内視鏡画像と実時間映像の領域間ギャップに対処する画像-ビデオ結合型ポリープ検出ネットワーク(Ivy-Net)を提案する。
収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-12-31T10:33:09Z) - Assisted Probe Positioning for Ultrasound Guided Radiotherapy Using
Image Sequence Classification [55.96221340756895]
前立腺外照射療法における経皮的超音波画像誘導は, 患者設定中の各セッションにおけるプローブと前立腺の整合性を必要とする。
本研究では,画像とプローブ位置データの共同分類により,高精度なプローブ配置を確保する方法を示す。
マルチ入力マルチタスクアルゴリズムを用いて、光学的追跡された超音波プローブからの空間座標データを、繰り返しニューラルネットワークを用いて画像クラスシファイアと組み合わせ、リアルタイムで2セットの予測を生成する。
このアルゴリズムは平均(標準偏差)3.7$circ$ (1.2$circ$)の範囲内で最適なプローブアライメントを同定する。
論文 参考訳(メタデータ) (2020-10-06T13:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。