論文の概要: Exploiting a Mixture-of-Layers in an Electrocardiography Foundation Model
- arxiv url: http://arxiv.org/abs/2509.00102v1
- Date: Wed, 27 Aug 2025 20:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.081838
- Title: Exploiting a Mixture-of-Layers in an Electrocardiography Foundation Model
- Title(参考訳): 心電図基礎モデルにおける混合層爆発
- Authors: Phu X. Nguyen, Huy Phan, Hieu Pham, Christos Chatzichristos, Bert Vandenberk, Maarten De Vos,
- Abstract要約: 心電図のためのトランスフォーマーベース基礎モデル(ECG)は、近年、多くの下流アプリケーションで顕著な性能を達成している。
トレーニング済みのTransformerモデルの最終レイヤであるEmphdeファクト表現層は、下流タスクに最適なパフォーマンスを提供するだろうか?
本稿では,モデルレイヤの表現多様性を効果的に活用するための新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 17.400439953606913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based foundation models for Electrocardiograms (ECGs) have recently achieved impressive performance in many downstream applications. However, the internal representations of such models across layers have not been fully understood and exploited. An important question arises: Does the final layer of the pre-trained Transformer model, the \emph{de facto} representational layer, provide optimal performance for downstream tasks? Although our answer based on empirical and theoretical analyses for this question is negative, we propose a novel approach to leverage the representation diversity of the model's layers effectively. Specifically, we introduce a novel architecture called Post-pretraining Mixture-of-layers Aggregation (PMA), which enables a flexible combination of the layer-wise representations from the layer stack of a Transformer-based foundation model. We first pre-train the model from ECG signals using the 1-dimensional Vision Transformer (ViT) via masked modeling. In downstream applications, instead of relying solely on the last layer of the model, we employ a gating network to selectively fuse the representations from the pretrained model's layers, thereby enhancing representation power and improving performance of the downstream applications. In addition, we extend the proposed method to the pretraining stage by aggregating all representations through group-wise averaging before feeding them into the decoder-based Transformer.
- Abstract(参考訳): 心電図のためのトランスフォーマーベース基礎モデル(ECG)は、近年、多くの下流アプリケーションで顕著な性能を達成している。
しかし、層をまたいだモデルの内部表現は完全には理解されておらず、活用されていない。
トレーニング済みの Transformer モデルの最終レイヤである \emph{de facto} 表現層は、下流タスクに最適なパフォーマンスを提供するか?
この問題に対する経験的および理論的分析に基づく回答は否定的であるが、モデルの層表現の多様性を効果的に活用するための新しいアプローチを提案する。
具体的には,PMA(Post-pretraining Mixture-of-layer Aggregation)と呼ばれる新しいアーキテクチャを導入する。
まず1次元視覚変換器 (ViT) を用いて, マスクモデルを用いてECG信号からモデルを事前学習する。
下流アプリケーションでは、モデルの最後の層にのみ依存するのではなく、ゲーティングネットワークを用いて事前訓練されたモデルの層から表現を選択的に融合させ、表現力を高め、下流アプリケーションの性能を向上させる。
さらに,提案手法は,デコーダベースのトランスフォーマーに入力する前に,グループワイド平均化によってすべての表現を集約することにより,事前学習段階まで拡張する。
関連論文リスト
- TIDE : Temporal-Aware Sparse Autoencoders for Interpretable Diffusion Transformers in Image Generation [41.909091496502704]
拡散トランスフォーマー(Diffusion Transformers, DiTs)は、強力なが未探索な生成モデルのクラスである。
解釈可能な拡散変換を行うためのTIDE-Temporal-aware sparse Autoencodersを提案する。
論文 参考訳(メタデータ) (2025-03-10T08:35:51Z) - Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Spatio-Temporal Encoding of Brain Dynamics with Surface Masked Autoencoders [10.097983222759884]
表面仮面オートエンコーダ(sMAE)と表面仮面オートエンコーダ(MAE)
これらのモデルは、皮質発達と構造関数の強力な潜在表現を学習することにより、入力のマスクされたバージョンから皮質特徴写像を再構築するように訓練されている。
以上の結果から, (v)sMAE事前学習モデルでは, 複数のタスクにおける表現型予測性能が約26%向上し,スクラッチからトレーニングしたモデルに対してより高速な収束が得られた。
論文 参考訳(メタデータ) (2023-08-10T10:01:56Z) - ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data [0.0]
画像ネット上で事前学習したハイブリッドビジョントランスフォーマー(ViT)モデルの脳波回帰タスクへの応用を実演する。
このモデルは、ImageNetの重みなしでトレーニングされた同じアーキテクチャのViTなど、他のモデルと比較して、顕著なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2023-08-01T11:10:33Z) - Learning Joint Latent Space EBM Prior Model for Multi-layer Generator [44.4434704520236]
多層ジェネレータモデルの学習における基礎的問題について検討する。
本稿では,全層にまたがる待ち行列空間上のエネルギーモデル (EBM) を提案する。
実験により、学習したモデルが高品質な画像を生成する際に表現できることが実証された。
論文 参考訳(メタデータ) (2023-06-10T00:27:37Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。
DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。
本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文 参考訳(メタデータ) (2022-03-21T14:53:57Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z) - A Multi-Scale Tensor Network Architecture for Classification and
Regression [0.0]
テンソルネットワークを用いた教師あり学習のためのアルゴリズムを提案する。
我々はウェーブレット変換の連続を通して粗粒化によってデータを前処理するステップを採用する。
ネットワークを通しての細粒化がモデルの初期化にどのように利用されるかを示す。
論文 参考訳(メタデータ) (2020-01-22T21:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。