論文の概要: Unsupervised Shot Boundary Detection for Temporal Segmentation of Long
Capsule Endoscopy Videos
- arxiv url: http://arxiv.org/abs/2110.09067v1
- Date: Mon, 18 Oct 2021 07:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 05:23:58.995391
- Title: Unsupervised Shot Boundary Detection for Temporal Segmentation of Long
Capsule Endoscopy Videos
- Title(参考訳): 長期カプセル内視鏡映像の時間分割のための教師なしショット境界検出
- Authors: Sodiq Adewole, Philip Fernandes, James Jablonski, Andrew Copland,
Michael Porter, Sana Syed, Donald Brown
- Abstract要約: 医師は消化器内視鏡(英語版) (CE) を非侵襲的、非外科的処置として使用し、全消化管 (GI) を検査する。
1回のCE検査は8時間から11時間で8万フレームを生成でき、ビデオとしてコンパイルされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Physicians use Capsule Endoscopy (CE) as a non-invasive and non-surgical
procedure to examine the entire gastrointestinal (GI) tract for diseases and
abnormalities. A single CE examination could last between 8 to 11 hours
generating up to 80,000 frames which is compiled as a video. Physicians have to
review and analyze the entire video to identify abnormalities or diseases
before making diagnosis. This review task can be very tedious, time consuming
and prone to error. While only as little as a single frame may capture useful
content that is relevant to the physicians' final diagnosis, frames covering
the small bowel region alone could be as much as 50,000. To minimize
physicians' review time and effort, this paper proposes a novel unsupervised
and computationally efficient temporal segmentation method to automatically
partition long CE videos into a homogeneous and identifiable video segments.
However, the search for temporal boundaries in a long video using high
dimensional frame-feature matrix is computationally prohibitive and
impracticable for real clinical application. Therefore, leveraging both spatial
and temporal information in the video, we first extracted high level frame
features using a pretrained CNN model and then projected the high-dimensional
frame-feature matrix to lower 1-dimensional embedding. Using this 1-dimensional
sequence embedding, we applied the Pruned Exact Linear Time (PELT) algorithm to
searched for temporal boundaries that indicates the transition points from
normal to abnormal frames and vice-versa. We experimented with multiple real
patients' CE videos and our model achieved an AUC of 66\% on multiple test
videos against expert provided labels.
- Abstract(参考訳): 医師は、疾患や異常の消化管全体を検査するために、非侵襲的かつ非外科的処置としてカプセル内視鏡(ce)を使用する。
1回のCE検査は8時間から11時間で8万フレームを生成でき、ビデオとしてコンパイルされる。
医師は診断する前に、ビデオ全体をレビューして分析し、異常や疾患を特定する必要がある。
このレビュータスクは非常に退屈で、時間がかかり、エラーを起こしやすい。
医師の最終的な診断に関係のある有用な内容は、単一のフレームでのみ取得できるが、小さな腸領域をカバーしているフレームは、最大で5万の可能性がある。
本稿では,医師のレビュー時間と労力を最小限に抑えるために,長期CEビデオを自動的に均一かつ識別可能なビデオセグメントに分割する,教師なしかつ効率的な時間分割手法を提案する。
しかし, 高次元フレーム特徴行列を用いた長期ビデオにおける時間境界探索は, 実際の臨床応用において計算的に禁止され, 実行不可能である。
そこで,ビデオ中の空間的情報と時間的情報を利用して,まず事前学習したCNNモデルを用いて高階フレームの特徴を抽出し,高次元フレーム特徴行列を投影し,低次元埋め込みを行った。
この1次元シーケンス埋め込みを用いて,pruned exact linear time (pelt) アルゴリズムを適用し,正規フレームから異常フレームへの遷移点を示す時間境界の探索を行った。
複数の実患者によるceビデオを用いて実験を行い,専門家が提供したラベルに対する複数のテストビデオで66\%のaucを達成した。
関連論文リスト
- Towards a Benchmark for Colorectal Cancer Segmentation in Endorectal Ultrasound Videos: Dataset and Model Development [59.74920439478643]
本稿では,多様なERUSシナリオをカバーする最初のベンチマークデータセットを収集し,注釈付けする。
ERUS-10Kデータセットは77の動画と10,000の高解像度アノテートフレームで構成されています。
本稿では,ASTR (Adaptive Sparse-context TRansformer) という大腸癌セグメンテーションのベンチマークモデルを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:04:42Z) - Is Two-shot All You Need? A Label-efficient Approach for Video
Segmentation in Breast Ultrasound [4.113689581316844]
BUSビデオセグメンテーションのための新しい2ショットトレーニングパラダイムを提案する。
自由範囲の時空一貫性をキャプチャできるだけでなく、ソース依存の拡張スキームも利用できる。
その結果、トレーニングラベルは1.9%しか与えられていないが、完全に注釈付けされたものと比較するとパフォーマンスが向上した。
論文 参考訳(メタデータ) (2024-02-07T14:47:08Z) - Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。
我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。
超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - A spatio-temporal network for video semantic segmentation in surgical
videos [11.548181453080087]
ビデオにおける時間的関係をモデル化するための新しいアーキテクチャを提案する。
提案モデルは,セマンティックビデオセグメンテーションを可能にするデコーダを含む。
提案するデコーダは,任意のセグメンテーションエンコーダ上で時間的整合性を改善するために使用することができる。
論文 参考訳(メタデータ) (2023-06-19T16:36:48Z) - YONA: You Only Need One Adjacent Reference-frame for Accurate and Fast
Video Polyp Detection [80.68520401539979]
textbfYONA (textbfYou textbfOnly textbfNeed one textbfAdjacent Reference-frame)は、ビデオポリープ検出のための効率的なエンドツーエンドのトレーニングフレームワークである。
提案したYONAは,従来の最先端の競合他社よりも精度と速度の両面で優れています。
論文 参考訳(メタデータ) (2023-06-06T13:53:15Z) - FetReg2021: A Challenge on Placental Vessel Segmentation and
Registration in Fetoscopy [52.3219875147181]
2-Twin Transfusion Syndrome (TTTS) に対するレーザー光凝固法が広く採用されている。
このプロシージャは、視野が限られたこと、フェトスコープの操作性が悪いこと、視認性が悪いこと、照明の変動性のために特に困難である。
コンピュータ支援介入(CAI)は、シーン内の重要な構造を特定し、ビデオモザイクを通して胎児の視野を広げることで、外科医に意思決定支援と文脈認識を提供する。
7つのチームがこの課題に参加し、そのモデルパフォーマンスを、6フェットから658ピクセルの注釈付き画像の見当たらないテストデータセットで評価した。
論文 参考訳(メタデータ) (2022-06-24T23:44:42Z) - Graph Convolution Neural Network For Weakly Supervised Abnormality
Localization In Long Capsule Endoscopy Videos [0.0]
本稿では,弱いビデオレベルラベルのみを用いた長時間WCEビデオの終端時間的異常局所化を提案する。
本手法は, グラフ分類タスクにおいて89.9%の精度, 異常フレーム局所化タスクでは97.5%の精度を実現した。
論文 参考訳(メタデータ) (2021-10-18T09:00:24Z) - Ultrasound Video Transformers for Cardiac Ejection Fraction Estimation [3.188100483042461]
本稿では,トークン分類に適応したResidual Auto-Encoder NetworkとBERTモデルを用いた超音波ビデオ解析手法を提案する。
本研究では,エンドシストリクス(ES)とエンドダイアストリクス(ED)のフレーム検出と左室放出率の自動計算に本モデルを適用した。
エンド・ツー・エンドの学習可能なアプローチでは、5.95のMAEと0.15秒で$R2$の0.52で射出率を推定できる。
論文 参考訳(メタデータ) (2021-07-02T11:23:09Z) - Colonoscopy Polyp Detection: Domain Adaptation From Medical Report
Images to Real-time Videos [76.37907640271806]
大腸内視鏡画像と実時間映像の領域間ギャップに対処する画像-ビデオ結合型ポリープ検出ネットワーク(Ivy-Net)を提案する。
収集したデータセットの実験は、Ivy-Netが大腸内視鏡ビデオで最先端の結果を達成することを示した。
論文 参考訳(メタデータ) (2020-12-31T10:33:09Z) - PS-DeVCEM: Pathology-sensitive deep learning model for video capsule
endoscopy based on weakly labeled data [0.0]
本稿では, ビデオカプセル内視鏡(VCE)データを用いて, フレームレベルの異常検出と大腸疾患の多ラベル分類を行うための, 病因性深層学習モデル(PS-DeVCEM)を提案する。
我々のモデルは注目に基づく深層マルチインスタンス学習によって駆動され、弱いラベル付きデータでエンドツーエンドに訓練されている。
トレーニング中にフレームアノテーション情報を使わずに、時間的にフレームを病状でローカライズする能力を示す。
論文 参考訳(メタデータ) (2020-11-22T15:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。