論文の概要: ALFEE: Adaptive Large Foundation Model for EEG Representation
- arxiv url: http://arxiv.org/abs/2505.06291v1
- Date: Wed, 07 May 2025 13:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.751566
- Title: ALFEE: Adaptive Large Foundation Model for EEG Representation
- Title(参考訳): ALFEE: 脳波表現のための適応型大規模基盤モデル
- Authors: Wei Xiong, Junming Lin, Jiangtong Li, Jie Li, Changjun Jiang,
- Abstract要約: 本稿では,脳波信号表現(ALFEE)フレームワークのための適応大基礎モデルを提案する。
ALFEEは、堅牢な脳波表現学習のための2つの学習段階を持つ、新しいハイブリッドトランスフォーマーアーキテクチャである。
25,000時間の事前トレーニングの後、6つの下流脳波タスクに関する広範な実験結果が、既存のモデルよりもALFEEの方が優れた性能を示している。
- 参考スコア(独自算出の注目度): 17.166788472910806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While foundation models excel in text, image, and video domains, the critical biological signals, particularly electroencephalography(EEG), remain underexplored. EEG benefits neurological research with its high temporal resolution, operational practicality, and safety profile. However, low signal-to-noise ratio, inter-subject variability, and cross-paradigm differences hinder the generalization of current models. Existing methods often employ simplified strategies, such as a single loss function or a channel-temporal joint representation module, and suffer from a domain gap between pretraining and evaluation tasks that compromises efficiency and adaptability. To address these limitations, we propose the Adaptive Large Foundation model for EEG signal representation(ALFEE) framework, a novel hybrid transformer architecture with two learning stages for robust EEG representation learning. ALFEE employs a hybrid attention that separates channel-wise feature aggregation from temporal dynamics modeling, enabling robust EEG representation with variable channel configurations. A channel encoder adaptively compresses variable channel information, a temporal encoder captures task-guided evolution, and a hybrid decoder reconstructs signals in both temporal and frequency domains. During pretraining, ALFEE optimizes task prediction, channel and temporal mask reconstruction, and temporal forecasting to enhance multi-scale and multi-channel representation. During fine-tuning, a full-model adaptation with a task-specific token dictionary and a cross-attention layer boosts performance across multiple tasks. After 25,000 hours of pretraining, extensive experimental results on six downstream EEG tasks demonstrate the superior performance of ALFEE over existing models. Our ALFEE framework establishes a scalable foundation for biological signal analysis with implementation at https://github.com/xw1216/ALFEE.
- Abstract(参考訳): 基礎モデルはテキスト、画像、ビデオ領域で優れているが、重要な生物学的信号、特に脳波 (EEG) はいまだ探索されていない。
脳波は、高時間分解能、実用性、安全プロファイルによって神経学研究の恩恵を受ける。
しかし、低信号対雑音比、オブジェクト間の変動性、およびパラダイム間の差は、現在のモデルの一般化を妨げている。
既存の手法では、単一損失関数やチャネル時間的共同表現モジュールのような単純化された戦略を使い、事前学習と評価タスクの間のドメインギャップに悩まされ、効率と適応性を損なうことも多い。
これらの制約に対処するために,脳波信号表現(ALFEE)フレームワークの適応的大規模基盤モデルを提案する。
ALFEEは、チャネルワイドな特徴集約と時間的ダイナミクスモデリングを分離するハイブリッドな注意力を採用し、可変チャネル構成によるロバストなEEG表現を実現する。
チャネルエンコーダは可変チャネル情報を適応的に圧縮し、時間エンコーダはタスク誘導進化を捉え、ハイブリッドデコーダは時間領域と周波数領域の両方で信号を再構成する。
プレトレーニング中、ALFEEはタスク予測、チャネルと時間マスクの再構築、時間予測を最適化し、マルチスケールおよびマルチチャネル表現を強化する。
微調整の間、タスク固有のトークン辞書とクロスアテンション層によるフルモデル適応により、複数のタスクのパフォーマンスが向上する。
25,000時間の事前トレーニングの後、6つの下流脳波タスクに対する広範な実験結果が、既存のモデルよりもALFEEの優れた性能を示している。
私たちのALFEEフレームワークは、https://github.com/xw1216/ALFEEで実装された、生物学的信号解析のためのスケーラブルな基盤を確立しています。
関連論文リスト
- PSDNorm: Test-Time Temporal Normalization for Deep Learning on EEG Signals [63.05435596565677]
PSDNormは、Mongeマッピングと時間コンテキストを活用して、ディープラーニングモデルでフィーチャーマップを正規化するレイヤである。
PSDNormは、トレーニング中に見えないデータセットのテスト時間における最先端のパフォーマンスを達成する。
PSDNormはロバスト性を大幅に改善し、20%の難題でF1スコアを著しく高めている。
論文 参考訳(メタデータ) (2025-03-06T16:20:25Z) - FoME: A Foundation Model for EEG using Adaptive Temporal-Lateral Attention Scaling [19.85701025524892]
FoME (Foundation Model for EEG) は適応的側方アテンションスケーリングを用いた新しいアプローチである。
FoMEは1.7TBの頭皮と頭蓋内脳波記録のデータセットで事前訓練されており、1,096kのステップで745Mのパラメータが訓練されている。
論文 参考訳(メタデータ) (2024-09-19T04:22:40Z) - Spatial Adaptation Layer: Interpretable Domain Adaptation For Biosignal Sensor Array Applications [0.7499722271664147]
生体信号アレイモデルに適用可能な空間適応層(SAL)を提案する。
また,学習可能なベースライン正規化(LBN)を導入し,ベースライン変動を低減する。
2つのHD-sEMGジェスチャ認識データセットでテストした結果、SALとLBNは通常の配列の標準微調整よりも優れていた。
論文 参考訳(メタデータ) (2024-09-12T14:06:12Z) - EEGMamba: Bidirectional State Space Model with Mixture of Experts for EEG Multi-task Classification [1.4004287903552533]
脳波アプリケーションのためのマルチタスク学習を真に実装した最初のユニバーサル脳波分類ネットワークであるEEGMambaを紹介する。
EEGMambaは、Spatio-Temporal-Adaptive (ST-Adaptive)モジュール、双方向のMamba、Mixture of Experts (MoE)をシームレスに統合したフレームワークに統合する。
本研究では,8つの公用EEGデータセットを用いてモデルの評価を行い,その性能を4種類のタスクで実証した。
論文 参考訳(メタデータ) (2024-07-20T11:15:47Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。