論文の概要: Graph Convolution Neural Network For Weakly Supervised Abnormality
Localization In Long Capsule Endoscopy Videos
- arxiv url: http://arxiv.org/abs/2110.09110v1
- Date: Mon, 18 Oct 2021 09:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 04:02:36.537734
- Title: Graph Convolution Neural Network For Weakly Supervised Abnormality
Localization In Long Capsule Endoscopy Videos
- Title(参考訳): 長いカプセル内視鏡映像における異常局在を弱めるグラフ畳み込みニューラルネットワーク
- Authors: Sodiq Adewole, Philip Fernandes, James Jablonski, Andrew Copland,
Michael Porter, Sana Syed, Donald Brown
- Abstract要約: 本稿では,弱いビデオレベルラベルのみを用いた長時間WCEビデオの終端時間的異常局所化を提案する。
本手法は, グラフ分類タスクにおいて89.9%の精度, 異常フレーム局所化タスクでは97.5%の精度を実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal activity localization in long videos is an important problem. The
cost of obtaining frame level label for long Wireless Capsule Endoscopy (WCE)
videos is prohibitive. In this paper, we propose an end-to-end temporal
abnormality localization for long WCE videos using only weak video level
labels. Physicians use Capsule Endoscopy (CE) as a non-surgical and
non-invasive method to examine the entire digestive tract in order to diagnose
diseases or abnormalities. While CE has revolutionized traditional endoscopy
procedures, a single CE examination could last up to 8 hours generating as much
as 100,000 frames. Physicians must review the entire video, frame-by-frame, in
order to identify the frames capturing relevant abnormality. This, sometimes
could be as few as just a single frame. Given this very high level of
redundancy, analyzing long CE videos can be very tedious, time consuming and
also error prone. This paper presents a novel multi-step method for an
end-to-end localization of target frames capturing abnormalities of interest in
the long video using only weak video labels. First we developed an automatic
temporal segmentation using change point detection technique to temporally
segment the video into uniform, homogeneous and identifiable segments. Then we
employed Graph Convolutional Neural Network (GCNN) to learn a representation of
each video segment. Using weak video segment labels, we trained our GCNN model
to recognize each video segment as abnormal if it contains at least a single
abnormal frame. Finally, leveraging the parameters of the trained GCNN model,
we replaced the final layer of the network with a temporal pool layer to
localize the relevant abnormal frames within each abnormal video segment. Our
method achieved an accuracy of 89.9\% on the graph classification task and a
specificity of 97.5\% on the abnormal frames localization task.
- Abstract(参考訳): 長時間ビデオにおける時間的活動のローカライゼーションは重要な問題である。
長い無線カプセル内視鏡(WCE)ビデオのフレームレベルラベルを取得するコストは禁じられている。
本稿では,弱いビデオレベルラベルのみを用いた長時間WCEビデオの終端時間的異常局所化を提案する。
医師は、疾患や異常を診断するために、非外科的かつ非侵襲的に消化器全体を検査する方法としてカプセル内視鏡(ce)を使用する。
CEは従来の内視鏡手術に革命をもたらしたが、CE検査では最大8時間で10万フレームが生成される可能性がある。
医師は、関連する異常を捉えたフレームを特定するために、フレームごとにビデオ全体をレビューする必要がある。
これは、単に1フレームしか持たない場合もある。
この非常に高い冗長性を考えると、長いceビデオの分析は非常に退屈で時間がかかり、エラーも起こりやすい。
本稿では、弱いビデオラベルのみを用いて、長ビデオにおける興味の異常を捉えたターゲットフレームのエンドツーエンドローカライズのための新しいマルチステップ手法を提案する。
まず,映像を均一で均質で識別可能なセグメントに時間分割するための変化点検出手法を用いた時間分割の自動生成法を開発した。
次に,各映像セグメントの表現を学ぶために,グラフ畳み込みニューラルネットワーク(gcnn)を用いた。
弱いビデオセグメントラベルを用いて、少なくとも1つの異常フレームを含む場合、各ビデオセグメントが異常であると認識するようにGCNNモデルを訓練した。
最後に、トレーニングしたgcnnモデルのパラメータを利用して、ネットワークの最終層をテンポラリプール層に置き換え、各異常映像セグメント内の関連する異常フレームをローカライズした。
本手法は, グラフ分類タスクにおいて89.9\%, 異常フレーム位置決めタスクでは97.5\%の精度を達成した。
関連論文リスト
- AtGCN: A Graph Convolutional Network For Ataxic Gait Detection [0.0]
本稿では,アタキシー歩行を検出するために,AtGCNと呼ばれるグラフ畳み込みネットワークを提案する。
この問題は、健康な歩行からの失速歩行のずれが非常に微妙であるため、難しい。
提案したAtGCNモデルは、93.46%の精度と0.4169のMAEで検出および予測の最先端をそれぞれ上回る。
論文 参考訳(メタデータ) (2024-10-30T09:55:30Z) - Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。
我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。
超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - Dynamic Erasing Network Based on Multi-Scale Temporal Features for
Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。
まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。
そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文 参考訳(メタデータ) (2023-12-04T09:40:11Z) - Self-Supervised Masked Convolutional Transformer Block for Anomaly
Detection [122.4894940892536]
本稿では, 自己監督型マスク型畳み込み変圧器ブロック (SSMCTB) について述べる。
本研究では,従来の自己教師型予測畳み込み抑止ブロック(SSPCAB)を3次元マスク付き畳み込み層,チャンネルワイドアテンション用トランスフォーマー,およびハマーロスに基づく新たな自己教師型目標を用いて拡張する。
論文 参考訳(メタデータ) (2022-09-25T04:56:10Z) - A Hierarchical Spatio-Temporal Graph Convolutional Neural Network for
Anomaly Detection in Videos [11.423072255384469]
これらの問題に対処する階層型時空間グラフ畳み込みニューラルネットワーク(HSTGCNN)を提案する。
HSTGCNNは、グラフ表現の異なるレベルに対応する複数のブランチで構成されている。
高レベルグラフ表現は、低解像度ビデオにおける人々の移動速度と方向を符号化するために、高レベルグラフ表現は、高解像度ビデオにおける人間の骨格を符号化するために、高レベルグラフ表現が割り当てられる。
論文 参考訳(メタデータ) (2021-12-08T14:03:33Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - Unsupervised Shot Boundary Detection for Temporal Segmentation of Long
Capsule Endoscopy Videos [0.0]
医師は消化器内視鏡(英語版) (CE) を非侵襲的、非外科的処置として使用し、全消化管 (GI) を検査する。
1回のCE検査は8時間から11時間で8万フレームを生成でき、ビデオとしてコンパイルされる。
論文 参考訳(メタデータ) (2021-10-18T07:22:46Z) - Anomaly Detection in Video Sequences: A Benchmark and Computational
Model [25.25968958782081]
本稿では,ビデオシーケンスにおける異常検出のベンチマークとして,新しい大規模異常検出(LAD)データベースを提案する。
通常のビデオクリップや異常なビデオクリップを含む2000の動画シーケンスが含まれており、クラッシュ、火災、暴力など14の異常なカテゴリーがある。
ビデオレベルラベル(異常/正常ビデオ、異常タイプ)やフレームレベルラベル(異常/正常ビデオフレーム)を含むアノテーションデータを提供し、異常検出を容易にする。
完全教師付き学習問題として異常検出を解くために,マルチタスク深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-16T06:34:38Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。