論文の概要: Spatiotemporal Learning with Context-aware Video Tubelets for Ultrasound Video Analysis
- arxiv url: http://arxiv.org/abs/2503.17475v1
- Date: Fri, 21 Mar 2025 18:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:54.015996
- Title: Spatiotemporal Learning with Context-aware Video Tubelets for Ultrasound Video Analysis
- Title(参考訳): 超音波映像解析のための文脈対応ビデオチューブを用いた時空間学習
- Authors: Gary Y. Li, Li Chen, Bryson Hicks, Nikolai Schnittke, David O. Kessler, Jeffrey Shupp, Maria Parker, Cristiana Baloescu, Christopher Moore, Cynthia Gregory, Kenton Gregory, Balasundar Raju, Jochen Kruecker, Alvin Chen,
- Abstract要約: 本稿では,チューブレットに基づくオブジェクト検出とビデオ分類のための軽量なフレームワークを提案する。
グローバルな文脈の喪失に対処するため、分類器への入力として、チューブレットの位置、サイズ、信頼性を埋め込む。
提案手法は効率が良く, チューブレットのパラメータは0.4Mである。
- 参考スコア(独自算出の注目度): 4.611737599608456
- License:
- Abstract: Computer-aided pathology detection algorithms for video-based imaging modalities must accurately interpret complex spatiotemporal information by integrating findings across multiple frames. Current state-of-the-art methods operate by classifying on video sub-volumes (tubelets), but they often lose global spatial context by focusing only on local regions within detection ROIs. Here we propose a lightweight framework for tubelet-based object detection and video classification that preserves both global spatial context and fine spatiotemporal features. To address the loss of global context, we embed tubelet location, size, and confidence as inputs to the classifier. Additionally, we use ROI-aligned feature maps from a pre-trained detection model, leveraging learned feature representations to increase the receptive field and reduce computational complexity. Our method is efficient, with the spatiotemporal tubelet classifier comprising only 0.4M parameters. We apply our approach to detect and classify lung consolidation and pleural effusion in ultrasound videos. Five-fold cross-validation on 14,804 videos from 828 patients shows our method outperforms previous tubelet-based approaches and is suited for real-time workflows.
- Abstract(参考訳): 映像に基づく画像モダリティのためのコンピュータ支援型病理検出アルゴリズムは,複数のフレームにまたがる結果を統合することで,複雑な時空間情報を正確に解釈する必要がある。
現在の最先端の手法は、ビデオサブボリューム(チューブレット)を分類することで動作するが、検出ROI内の局所領域のみに焦点を当てることで、グローバルな空間的コンテキストを失うことがしばしばある。
本稿では,グローバルな空間的文脈と微細な時空間的特徴の両方を保存した,チューブレットに基づく物体検出と映像分類のための軽量なフレームワークを提案する。
グローバルな文脈の喪失に対処するため、分類器への入力として、チューブレットの位置、サイズ、信頼性を埋め込む。
さらに、事前学習された検出モデルからROIに整合した特徴マップを使用し、学習した特徴表現を活用して受容場を拡大し、計算複雑性を低減する。
提案手法は効率が良く, 時空間のチューブレット分類器は0.4Mパラメータのみで構成されている。
超音波画像における肺の凝固・胸水の検出と分類に本手法を適用した。
828人の患者14,804本の動画の5倍のクロスバリデーションは、我々の手法が従来のチューブレットベースのアプローチより優れており、リアルタイムワークフローに適していることを示している。
関連論文リスト
- Deepfake Detection with Spatio-Temporal Consistency and Attention [46.1135899490656]
ディープフェイクビデオは、現実主義の高まりにより、コミュニティの間で懸念が高まっている。
鍛造ビデオ検出の現在の方法は、主にグローバルなフレーム機能に依存している。
本稿では,偽ビデオの局所的な操作的シグネチャに着目したニューラルディープフェイク検出器を提案する。
論文 参考訳(メタデータ) (2025-02-12T08:51:33Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - RLogist: Fast Observation Strategy on Whole-slide Images with Deep
Reinforcement Learning [15.955265218706467]
計算病理学における全スライディング画像(WSI)は、高解像度でギガピクセルサイズを持つが、一般的には少ない関心領域を持つ。
我々は,WSI 上での高速観測戦略のための深層強化学習 (DRL) 手法である RLogist を開発した。
論文 参考訳(メタデータ) (2022-12-04T04:03:34Z) - Video-TransUNet: Temporally Blended Vision Transformer for CT VFSS
Instance Segmentation [11.575821326313607]
本稿では,TransUNetの深層学習フレームワークに時間的特徴ブレンドを組み込んだ医療用CTビデオのセグメンテーションのための深層アーキテクチャであるVideo-TransUNetを提案する。
特に,提案手法は,ResNet CNNバックボーンによるフレーム表現,テンポラルコンテキストモジュールによるマルチフレーム機能ブレンディング,UNetベースの畳み込みデコナールアーキテクチャによる複数ターゲットの再構築,などを実現する。
論文 参考訳(メタデータ) (2022-08-17T14:28:58Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - LRTD: Long-Range Temporal Dependency based Active Learning for Surgical
Workflow Recognition [67.86810761677403]
本稿では,費用対効果の高い手術ビデオ解析のための新しい能動的学習法を提案する。
具体的には,非局所的再帰的畳み込みネットワーク (NL-RCNet) を提案する。
手術ワークフロー認識タスクを実行することで,大規模な手術ビデオデータセット(Cholec80)に対するアプローチを検証する。
論文 参考訳(メタデータ) (2020-04-21T09:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。