論文の概要: A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos
- arxiv url: http://arxiv.org/abs/2309.04702v1
- Date: Sat, 9 Sep 2023 07:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 16:57:07.135056
- Title: A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos
- Title(参考訳): ビデオにおける乳房病変検出のための空間的変形型注意ベースフレームワーク
- Authors: Chao Qin and Jiale Cao and Huazhu Fu and Rao Muhammad Anwer and Fahad
Shahbaz Khan
- Abstract要約: 本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
- 参考スコア(独自算出の注目度): 107.96514633713034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting breast lesion in videos is crucial for computer-aided diagnosis.
Existing video-based breast lesion detection approaches typically perform
temporal feature aggregation of deep backbone features based on the
self-attention operation. We argue that such a strategy struggles to
effectively perform deep feature aggregation and ignores the useful local
information. To tackle these issues, we propose a spatial-temporal deformable
attention based framework, named STNet. Our STNet introduces a spatial-temporal
deformable attention module to perform local spatial-temporal feature fusion.
The spatial-temporal deformable attention module enables deep feature
aggregation in each stage of both encoder and decoder. To further accelerate
the detection speed, we introduce an encoder feature shuffle strategy for
multi-frame prediction during inference. In our encoder feature shuffle
strategy, we share the backbone and encoder features, and shuffle encoder
features for decoder to generate the predictions of multiple frames. The
experiments on the public breast lesion ultrasound video dataset show that our
STNet obtains a state-of-the-art detection performance, while operating twice
as fast inference speed. The code and model are available at
https://github.com/AlfredQin/STNet.
- Abstract(参考訳): ビデオにおける乳房病変の検出はコンピュータ支援診断に不可欠である。
既存の乳房病変検出手法では, 自己接触操作に基づく深部バックボーン特徴の時間的特徴の集約が一般的である。
このような戦略は機能集約を効果的に行うのに苦労し、有用なローカル情報を無視する。
そこで本稿では,空間的時間的変形可能な注意に基づくフレームワークであるstnetを提案する。
stnetでは空間-時間変形可能なアテンションモジュールを導入し,局所的空間-時間的特徴融合を行う。
空間-時間変形可能なアテンションモジュールは、エンコーダとデコーダの両方の段ごとに深い特徴集約を可能にする。
検出速度をさらに高速化するため,推定中にマルチフレーム予測を行うエンコーダ特徴シャッフル戦略を導入する。
エンコーダの機能シャッフル戦略では、バックボーンとエンコーダの機能を共有し、デコーダの機能を共有して複数のフレームの予測を生成する。
公衆乳房病変超音波画像データセットを用いた実験により,STNetは推定速度の2倍の速さで,最先端検出性能が得られた。
コードとモデルはhttps://github.com/alfredqin/stnetで入手できる。
関連論文リスト
- Skeleton-Guided Spatial-Temporal Feature Learning for Video-Based Visible-Infrared Person Re-Identification [2.623742123778503]
映像に基づく視覚的赤外線再識別(VVI-ReID)は,特徴的相違により困難である。
VVI-ReIDのための新しいスケルトン誘導時空間フェースリーニング(STAR)法を提案する。
論文 参考訳(メタデータ) (2024-11-17T13:18:05Z) - TSdetector: Temporal-Spatial Self-correction Collaborative Learning for Colonoscopy Video Detection [19.00902297385955]
本研究では,時間レベルの整合性学習と空間レベルの信頼性学習を統合した時間空間自己補正検出器(TSdetector)を提案する。
公開された3つのポリプビデオデータセットの実験結果は、TSdetectorが最も高いポリプ検出率を達成し、他の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-09-30T06:19:29Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Point Cloud Video Anomaly Detection Based on Point Spatio-Temporal
Auto-Encoder [1.4340883856076097]
我々は、ポイントクラウドビデオの異常を検出するためにポイントクラウドビデオを入力として使用する自動エンコーダフレームワークであるポイント時自動エンコーダ(PSTAE)を提案する。
本手法はTIMoデータセット上に新しい最先端(SOTA)を設定する。
論文 参考訳(メタデータ) (2023-06-04T10:30:28Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Pedestrian Spatio-Temporal Information Fusion For Video Anomaly
Detection [1.5736899098702974]
歩行者の情報を統合するために, 異常検出手法を提案する。
出力フレームと真値との差に応じて異常検出を行う。
The experimental results on the CUHK Avenue and ShanghaiTech datasets shows that the proposed method is superior than the current mainstream video anomaly detection method。
論文 参考訳(メタデータ) (2022-11-18T06:41:02Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Deep Video Inpainting Detection [95.36819088529622]
映像インペインティング検出は、映像内のインペイント領域を空間的および時間的にローカライズする。
VIDNet, Video Inpainting Detection Networkは、注意モジュールを備えた2ストリームエンコーダデコーダアーキテクチャを含む。
論文 参考訳(メタデータ) (2021-01-26T20:53:49Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。