論文の概要: Masked Autoencoders for Ultrasound Signals: Robust Representation Learning for Downstream Applications
- arxiv url: http://arxiv.org/abs/2508.20622v1
- Date: Thu, 28 Aug 2025 10:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.330271
- Title: Masked Autoencoders for Ultrasound Signals: Robust Representation Learning for Downstream Applications
- Title(参考訳): 超音波信号のためのマスク付きオートエンコーダ:下流アプリケーションのためのロバスト表現学習
- Authors: Immanuel Roßteutscher, Klaus S. Drese, Thorsten Uphues,
- Abstract要約: 1次元(1D)超音波信号を用いた自己教師あり表現学習のための視覚変換器 (ViT) アーキテクチャを用いたマスク付きオートエンコーダ (MAE) の適応と性能について検討した。
以上の結果から,学習前のモデルでは,スクラッチからトレーニングしたモデルと,下流タスクに最適化された強力な畳み込みニューラルネットワーク(CNN)ベースラインが有意に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigated the adaptation and performance of Masked Autoencoders (MAEs) with Vision Transformer (ViT) architectures for self-supervised representation learning on one-dimensional (1D) ultrasound signals. Although MAEs have demonstrated significant success in computer vision and other domains, their use for 1D signal analysis, especially for raw ultrasound data, remains largely unexplored. Ultrasound signals are vital in industrial applications such as non-destructive testing (NDT) and structural health monitoring (SHM), where labeled data are often scarce and signal processing is highly task-specific. We propose an approach that leverages MAE to pre-train on unlabeled synthetic ultrasound signals, enabling the model to learn robust representations that enhance performance in downstream tasks, such as time-of-flight (ToF) classification. This study systematically investigated the impact of model size, patch size, and masking ratio on pre-training efficiency and downstream accuracy. Our results show that pre-trained models significantly outperform models trained from scratch and strong convolutional neural network (CNN) baselines optimized for the downstream task. Additionally, pre-training on synthetic data demonstrates superior transferability to real-world measured signals compared with training solely on limited real datasets. This study underscores the potential of MAEs for advancing ultrasound signal analysis through scalable, self-supervised learning.
- Abstract(参考訳): 1次元(1D)超音波信号を用いた自己教師あり表現学習のための視覚変換器 (ViT) アーキテクチャを用いたマスク付きオートエンコーダ (MAE) の適応と性能について検討した。
MAEはコンピュータビジョンやその他の領域で大きな成功を収めてきたが、特に生の超音波データにおいて1D信号解析に使われていることは、まだ明らかにされていない。
超音波信号は非破壊検査(NDT)や構造健康モニタリング(SHM)といった産業用途において重要であり、ラベル付きデータは少なく、信号処理はタスク固有のものが多い。
そこで本研究では,MAEを利用して未ラベル合成超音波信号の事前学習を行い,飛行時間(ToF)分類などの下流タスクの性能を高めるロバストな表現を学習する手法を提案する。
本研究では,モデルサイズ,パッチサイズ,マスキング比が事前学習効率および下流精度に及ぼす影響を系統的に検討した。
以上の結果から,学習前のモデルでは,スクラッチからトレーニングしたモデルと,下流タスクに最適化された強力な畳み込みニューラルネットワーク(CNN)ベースラインが有意に優れていた。
さらに、合成データに対する事前トレーニングは、限られた実データセットのみを対象としたトレーニングと比較して、実世界の計測信号に対して優れた転送性を示す。
本研究は,拡張性,自己教師型学習による超音波信号解析におけるMAEsの可能性を明らかにするものである。
関連論文リスト
- CiTrus: Squeezing Extra Performance out of Low-data Bio-signal Transfer Learning [0.36832029288386137]
近年, 生体信号の伝達学習は, 小さな生体信号データセットを用いて下流タスクの予測性能を向上させる重要な手法となっている。
低データの生体信号伝達学習のためのマスク付き自動符号化を用いた畳み込み変換型ハイブリッドモデルアーキテクチャを提案する。
我々のハイブリッドモデルにおける畳み込みのみの部分は、いくつかの低データダウンストリームタスクにおいて最先端のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2024-12-16T12:15:16Z) - An LSTM Feature Imitation Network for Hand Movement Recognition from sEMG Signals [2.632402517354116]
我々は,Ninapro DB2上の300ms信号ウィンドウ上での閉形式時間特徴学習にFIN(Feature-imitating Network)を適用することを提案する。
LSTM-FINネットワークは,特徴再構成において最大99%のR2精度,手の動き認識において80%の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2024-05-23T21:45:15Z) - Score-based Generative Priors Guided Model-driven Network for MRI Reconstruction [14.53268880380804]
そこで本研究では,モデル駆動型ネットワークトレーニングの先駆的な先駆的手法として,ナイーブなSMLDサンプルが用いられる新しいワークフローを提案する。
まず,予備指導画像(PGI)としてサンプルを生成するために,事前学習スコアネットワークを採用した。
第2のステップでは,PGIからアーティファクトやノイズを粗く除去するデノナイジングモジュール(DM)を設計した。
第3に、より詳細な詳細を復元するために、識別されたPGIによって誘導されるモデル駆動ネットワークを設計した。
論文 参考訳(メタデータ) (2024-05-05T14:56:34Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - A Novel Approach For Analysis of Distributed Acoustic Sensing System
Based on Deep Transfer Learning [0.0]
畳み込みニューラルネットワークは、空間情報を抽出するための非常に有能なツールである。
LSTM(Long-Short term memory)は、シーケンシャルデータを処理するための有効な機器である。
我々のフレームワークのVGG-16アーキテクチャは、50のトレーニングで100%の分類精度が得られる。
論文 参考訳(メタデータ) (2022-06-24T19:56:01Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。