論文の概要: EEG-DLite: Dataset Distillation for Efficient Large EEG Model Training
- arxiv url: http://arxiv.org/abs/2512.12210v1
- Date: Sat, 13 Dec 2025 06:48:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.164418
- Title: EEG-DLite: Dataset Distillation for Efficient Large EEG Model Training
- Title(参考訳): EEG-DLite:高効率大脳波モデルトレーニングのためのデータセット蒸留
- Authors: Yuting Tang, Weibang Jiang, Shanglin Li, Yong Li, Chenyu Liu, Xinliang Zhou, Yi Ding, Cuntai Guan,
- Abstract要約: 本稿では,脳波基礎モデルのより効率的な事前学習を可能にするデータ蒸留フレームワークであるEEG-DLiteを紹介する。
EEG-DLiteは、自己教師付きオートエンコーダを使用して、EEGセグメントをコンパクトな潜在表現に符号化することから始まる。
EEG-DLiteでキュレートされた2500時間データセットのたった5%のトレーニングは、完全なデータセットのトレーニングに匹敵するパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 35.131623508275574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale EEG foundation models have shown strong generalization across a range of downstream tasks, but their training remains resource-intensive due to the volume and variable quality of EEG data. In this work, we introduce EEG-DLite, a data distillation framework that enables more efficient pre-training by selectively removing noisy and redundant samples from large EEG datasets. EEG-DLite begins by encoding EEG segments into compact latent representations using a self-supervised autoencoder, allowing sample selection to be performed efficiently and with reduced sensitivity to noise. Based on these representations, EEG-DLite filters out outliers and minimizes redundancy, resulting in a smaller yet informative subset that retains the diversity essential for effective foundation model training. Through extensive experiments, we demonstrate that training on only 5 percent of a 2,500-hour dataset curated with EEG-DLite yields performance comparable to, and in some cases better than, training on the full dataset across multiple downstream tasks. To our knowledge, this is the first systematic study of pre-training data distillation in the context of EEG foundation models. EEG-DLite provides a scalable and practical path toward more effective and efficient physiological foundation modeling. The code is available at https://github.com/t170815518/EEG-DLite.
- Abstract(参考訳): 大規模脳波基礎モデルでは、様々な下流タスクにおいて強力な一般化が示されているが、そのトレーニングは、脳波データの量と変動品質のために、資源集約的なままである。
本研究では,大規模なEEGデータセットからノイズや冗長なサンプルを選択的に除去することで,より効率的な事前学習を可能にするデータ蒸留フレームワークであるEEG-DLiteを紹介する。
EEG-DLiteは、自己教師付きオートエンコーダを使用して、EEGセグメントをコンパクトな潜在表現に符号化することで、サンプル選択を効率よく、ノイズに対する感度を低減できる。
これらの表現に基づいて、EEG-DLiteはアウトレーヤをフィルタリングし、冗長性を最小化する。
広範な実験を通じて、EEG-DLiteでキュレートされた2500時間データセットのトレーニングは、複数のダウンストリームタスクをまたいだ完全なデータセットのトレーニングよりも、パフォーマンスが向上することを示した。
我々の知る限り、これは脳波基礎モデルの文脈における事前学習データ蒸留に関する最初の体系的研究である。
EEG-DLiteは、より効果的で効率的な生理的基礎モデリングへのスケーラブルで実践的な道を提供する。
コードはhttps://github.com/t170815518/EEG-DLiteで公開されている。
関連論文リスト
- REVE: A Foundation Model for EEG -- Adapting to Any Setup with Large-Scale Pretraining on 25,000 Subjects [5.368295573908306]
REVE(Representation for EEG with Versatile Embeddings)は、様々な脳波信号にまたがる一般化を意図した事前訓練モデルである。
我々は25,000人の被験者にまたがる92のデータセットから6万時間以上の脳波データをプレトレーニングしました。
我々は、標準化された脳波研究を支援し、臨床神経科学の進歩を促進するためのコード、事前訓練された体重、チュートリアルをリリースする。
論文 参考訳(メタデータ) (2025-10-24T15:52:46Z) - EEGDM: Learning EEG Representation with Latent Diffusion Model [26.237067291138246]
潜在拡散モデルに基づく新しい自己教師型脳波表現学習法であるEEGDMを提案する。
EEGDMは、EEG信号を蒸留するEEGエンコーダと、そのチャネル拡張をコンパクトな表現に組み込む。
実験結果から,EEGDMは高品質な脳波信号を再構成し,ロバストな表現を効果的に学習し,適度な事前学習データサイズで競合性能を得ることができた。
論文 参考訳(メタデータ) (2025-08-28T12:23:28Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - EEGFormer: Towards Transferable and Interpretable Large-Scale EEG
Foundation Model [39.363511340878624]
大規模複合脳波データに基づいて事前学習した脳波基礎モデル,すなわちEEGFormerを提案する。
本モデルの有効性を検証するため,様々な下流タスクにおいて広範囲に評価し,異なる転送条件下での性能を評価する。
論文 参考訳(メタデータ) (2024-01-11T17:36:24Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - Data augmentation for learning predictive models on EEG: a systematic
comparison [79.84079335042456]
脳波(EEG)分類タスクの深層学習は、ここ数年急速に増加している。
EEG分類タスクのディープラーニングは、比較的小さなEEGデータセットによって制限されている。
データ拡張は、コンピュータビジョンや音声などのアプリケーションにまたがる最先端のパフォーマンスを得るために重要な要素となっている。
論文 参考訳(メタデータ) (2022-06-29T09:18:15Z) - Distilling EEG Representations via Capsules for Affective Computing [14.67085109524245]
カプセル型アーキテクチャを用いて脳波表現を蒸留する新しい知識蒸留パイプラインを提案する。
本フレームワークは,教師から効果的に学習できる圧縮率の異なる学生ネットワークを実現する。
この手法は2つのデータセットのうちの1つで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-04-30T22:04:35Z) - Data Augmentation for Enhancing EEG-based Emotion Recognition with Deep
Generative Models [13.56090099952884]
本稿では、感情認識モデルの性能を高めるために、脳波トレーニングデータを増強する3つの方法を提案する。
フル利用戦略では、生成されたすべてのデータが、生成されたデータの品質を判断することなく、トレーニングデータセットに拡張される。
実験結果から,脳波を用いた感情認識モデルの性能向上を図った。
論文 参考訳(メタデータ) (2020-06-04T21:23:09Z) - Deep transfer learning for improving single-EEG arousal detection [63.52264764099532]
2つのデータセットは、単一のEEGモデルでパフォーマンスが低下する原因となる、まったく同じ設定を含んでいない。
単チャンネル脳波データのためのアーキテクチャを構築するために,ベースラインモデルをトレーニングし,最初の2層を置き換える。
細調整戦略を用いて,本モデルはベースラインモデルと同等の性能を示し,同等の単一チャネルモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-10T16:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。