論文の概要: Mamba-3D as Masked Autoencoders for Accurate and Data-Efficient Analysis of Medical Ultrasound Videos
- arxiv url: http://arxiv.org/abs/2503.20258v1
- Date: Wed, 26 Mar 2025 05:54:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:34.631340
- Title: Mamba-3D as Masked Autoencoders for Accurate and Data-Efficient Analysis of Medical Ultrasound Videos
- Title(参考訳): 医用超音波映像の高精度・データ効率解析のためのマスク付きオートエンコーダとしてのMamba-3D
- Authors: Jiaheng Zhou, Yanfeng Zhou, Wei Fang, Yuxing Tang, Le Lu, Ge Yang,
- Abstract要約: ビデオデータの3次元構造を保存したデータ効率の良いビジョンマンバネットワークであるE-ViM$3$を紹介する。
本モデルでは, 臨床応用への潜在的な影響を明らかにするとともに, ラベルの限定による競争性能の向上を図っている。
- 参考スコア(独自算出の注目度): 11.589704875476325
- License:
- Abstract: Ultrasound videos are an important form of clinical imaging data, and deep learning-based automated analysis can improve diagnostic accuracy and clinical efficiency. However, the scarcity of labeled data and the inherent challenges of video analysis have impeded the advancement of related methods. In this work, we introduce E-ViM$^3$, a data-efficient Vision Mamba network that preserves the 3D structure of video data, enhancing long-range dependencies and inductive biases to better model space-time correlations. With our design of Enclosure Global Tokens (EGT), the model captures and aggregates global features more effectively than competing methods. To further improve data efficiency, we employ masked video modeling for self-supervised pre-training, with the proposed Spatial-Temporal Chained (STC) masking strategy designed to adapt to various video scenarios. Experiments demonstrate that E-ViM$^3$ performs as the state-of-the-art in two high-level semantic analysis tasks across four datasets of varying sizes: EchoNet-Dynamic, CAMUS, MICCAI-BUV, and WHBUS. Furthermore, our model achieves competitive performance with limited labels, highlighting its potential impact on real-world clinical applications.
- Abstract(参考訳): 超音波ビデオは臨床画像データの重要な形態であり、深層学習に基づく自動解析は診断精度と臨床効率を向上させることができる。
しかし,ラベル付きデータの不足とビデオ解析の課題は,関連手法の進歩を阻害している。
本研究では,ビデオデータの3次元構造を保存し,空間時間相関をより良くモデル化するための長距離依存性と帰納バイアスを向上するデータ効率の高いビジョンマンバネットワークであるE-ViM$^3$を紹介する。
Enclosure Global Tokens (EGT) の設計により、このモデルは競合する手法よりもグローバル機能を効果的にキャプチャし集約する。
データ効率をさらに向上するため、我々は、様々なビデオシナリオに適応するように設計されたSpatial-Temporal Chained (STC)マスキング戦略を用いて、自己教師付き事前学習のためのマスク付きビデオモデリングを採用する。
実験によると、E-ViM$^3$はEchoNet-Dynamic、CAMUS、MICCAI-BUV、WHBUSの4つのデータセットにわたる2つの高度なセマンティック分析タスクにおいて最先端として機能する。
さらに,本モデルでは,ラベルの限定による競争性能の向上を図り,実際の臨床応用に対する潜在的な影響を強調した。
関連論文リスト
- Quantity versus Diversity: Influence of Data on Detecting EEG Pathology with Advanced ML Models [0.0]
本研究では,脳波の一般的な病態を検出するための各種機械学習モデルの性能に及ぼすデータ量と多様性の影響について検討した。
我々は、テンプル大学病院の2,993件の脳波データと、Elmiko Biosignals sp. z o.oの55,787件の脳波データを利用する。
以上の結果から,小規模で一貫したデータセットにより,広範囲のモデルで高い精度を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-11-13T16:15:48Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - SurgMAE: Masked Autoencoders for Long Surgical Video Analysis [4.866110274299399]
マスク付きオートエンコーダ(MAE)は視覚変換器(ViT)の自己監督パラダイムに注目された
本稿では,外科的ビデオ領域における転送可能な表現をMAEが学習できるかどうかを最初に検討する。
本稿では,MAE用高テンポラルトークンをサンプリングするマスキング戦略を備えた新しいアーキテクチャであるSurgMAEを提案する。
論文 参考訳(メタデータ) (2023-05-19T06:12:50Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - Impact of dataset size and long-term ECoG-based BCI usage on deep
learning decoders performance [4.7773230870500605]
脳-コンピュータインタフェース(BCI)の研究では、記録データは時間がかかり費用がかかる。
デコーダのトレーニングにより多くのデータで高いデコード性能を実現できますか?
実験の後、比較的小さなデータセットで高い復号性能が得られた。
論文 参考訳(メタデータ) (2022-09-08T13:01:05Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。