論文の概要: Tokenizing Single-Channel EEG with Time-Frequency Motif Learning
- arxiv url: http://arxiv.org/abs/2502.16060v3
- Date: Wed, 15 Oct 2025 18:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.31202
- Title: Tokenizing Single-Channel EEG with Time-Frequency Motif Learning
- Title(参考訳): 時間周波数モチーフ学習による単一チャネル脳波の学習
- Authors: Jathurshan Pradeepkumar, Xihao Piao, Zheng Chen, Jimeng Sun,
- Abstract要約: 本稿では,新しいトークン化フレームワークであるFM-Tokenizerを提案する。
単一チャネルのEEG信号から時間周波数モチーフの語彙を学び、それらを離散トークンにエンコードする。
信号形式, チャネル構成, 記録装置, タスクの事前学習データと異なる耳-EEG睡眠ステージング実験により, トークン化装置がベースラインを14%上回ることを示す。
- 参考スコア(独自算出の注目度): 16.732494632599934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models are reshaping EEG analysis, yet an important problem of EEG tokenization remains a challenge. This paper presents TFM-Tokenizer, a novel tokenization framework that learns a vocabulary of time-frequency motifs from single-channel EEG signals and encodes them into discrete tokens. We propose a dual-path architecture with time-frequency masking to capture robust motif representations, and it is model-agnostic, supporting both lightweight transformers and existing foundation models for downstream tasks. Our study demonstrates three key benefits: Accuracy: Experiments on four diverse EEG benchmarks demonstrate consistent performance gains across both single- and multi-dataset pretraining settings, achieving up to 17% improvement in Cohen's Kappa over strong baselines. Generalization: Moreover, as a plug-and-play component, it consistently boosts the performance of diverse foundation models, including BIOT and LaBraM. Scalability: By operating at the single-channel level rather than relying on the strict 10-20 EEG system, our method has the potential to be device-agnostic. Experiments on ear-EEG sleep staging, which differs from the pretraining data in signal format, channel configuration, recording device, and task, show that our tokenizer outperforms baselines by 14%. A comprehensive token analysis reveals strong class-discriminative, frequency-aware, and consistent structure, enabling improved representation quality and interpretability. Code is available at https://github.com/Jathurshan0330/TFM-Tokenizer.
- Abstract(参考訳): ファンデーションモデルはEEG分析を再構築しているが、EEGトークン化の重要な問題は依然として課題である。
本稿では、単一チャネル脳波信号から時間周波数モチーフの語彙を学習し、それらを離散トークンに符号化する新しいトークン化フレームワークであるFM-Tokenizerを提案する。
本稿では、時間周波数マスキングを用いたデュアルパスアーキテクチャを提案し、ロバストなモチーフ表現をキャプチャし、軽量トランスフォーマーと既存の下流タスク基盤モデルの両方をサポートするモデルに依存しない。
正確性: 4つの多様なEEGベンチマークの実験は、シングルセットとマルチデータセットの事前トレーニング設定の両方で一貫したパフォーマンス向上を示し、Cohen氏のKappaを強力なベースラインよりも最大17%改善しました。
一般化:さらに、プラグイン・アンド・プレイコンポーネントとして、BIOTやLaBraMなど、さまざまな基盤モデルのパフォーマンスを継続的に向上させます。
スケーラビリティ: 厳密な10-20EEGシステムに頼るのではなく, 単一チャネルレベルで動作することにより, デバイスに依存しない可能性を持つ。
信号形式, チャネル構成, 記録装置, タスクの事前学習データと異なる耳-EEG睡眠ステージング実験により, トークン化装置がベースラインを14%上回ることを示す。
包括的トークン分析により、強いクラス識別、周波数認識、一貫した構造が明らかになり、表現品質と解釈可能性が改善された。
コードはhttps://github.com/Jathurshan0330/TFM-Tokenizerで入手できる。
関連論文リスト
- Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - Training-Free Spectral Fingerprints of Voice Processing in Transformers [0.0]
異なる変換器アーキテクチャが、異なる接続パターンを介して同一の言語計算を実装していることを示す。
注意誘導トークングラフ上でのグラフ信号処理を用いて、20言語と3つのモデルファミリ間の接続性の変化を追跡する。
論文 参考訳(メタデータ) (2025-10-21T23:33:43Z) - Bidirectional Time-Frequency Pyramid Network for Enhanced Robust EEG Classification [2.512406961007489]
BITE(Bidirectional Time-Freq Pyramid Network)は、ロバストなマルチストリームシナジー、ピラミッド時間周波数アテンション(PTFA)、双方向適応畳み込みを特徴とするエンドツーエンドの統一アーキテクチャである。
統一アーキテクチャとして、MIタスクとSSVEPタスクの両方にわたる堅牢なパフォーマンスと、例外的な計算効率を組み合わせる。
我々の研究は、信頼性の高いBCIシステムにはスペクトル時間処理が不可欠であることを検証している。
論文 参考訳(メタデータ) (2025-10-11T04:14:48Z) - IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [79.22388408461458]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。
IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文 参考訳(メタデータ) (2025-06-16T08:28:19Z) - BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning [24.858548048614878]
B-spline Encoded Action Sequence Tokenizer (BEAST)について述べる。
BEAST は B-splines を用いて、アクションシーケンスをコンパクトな離散トークンまたは連続トークンにエンコードする。
BEASTは166のシミュレーションタスクと8つの実世界のタスクからなる3つの異なるロボット設定からなる3つの確立されたベンチマークで評価した。
論文 参考訳(メタデータ) (2025-06-06T13:26:16Z) - ALFEE: Adaptive Large Foundation Model for EEG Representation [17.166788472910806]
本稿では,脳波信号表現(ALFEE)フレームワークのための適応大基礎モデルを提案する。
ALFEEは、堅牢な脳波表現学習のための2つの学習段階を持つ、新しいハイブリッドトランスフォーマーアーキテクチャである。
25,000時間の事前トレーニングの後、6つの下流脳波タスクに関する広範な実験結果が、既存のモデルよりもALFEEの方が優れた性能を示している。
論文 参考訳(メタデータ) (2025-05-07T13:32:31Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - A novel Fourier Adjacency Transformer for advanced EEG emotion recognition [1.1347176912133798]
脳波の感情認識は、ノイズ干渉、信号の非定常性、脳活動の固有の複雑さによって大きな障害に直面している。
本稿では,Fourierベースの周期解析とグラフ駆動構造モデリングをシームレスに統合する新しいフレームワークであるFourier Adjacency Transformerを提案する。
論文 参考訳(メタデータ) (2025-02-28T03:15:12Z) - FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [51.32059240975148]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。
各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。
FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文 参考訳(メタデータ) (2025-02-16T13:54:32Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - The Backpropagation of the Wave Network [26.656105779121308]
本稿ではウェーブネットワークから派生した新しいトークン表現法であるウェーブネットワークの詳細な解析を行う。
複雑なベクトルトークン表現では、各トークンは大きさ成分で表現され、入力テキスト全体の大域的な意味をキャプチャする。
詳細な計算複雑性分析により、Token2Waveはビデオメモリの使用時間とトレーニング時間を著しく削減できることが示された。
論文 参考訳(メタデータ) (2024-11-11T13:48:01Z) - SplitSEE: A Splittable Self-supervised Framework for Single-Channel EEG Representation Learning [8.373376507515347]
SplitSEEは、単一チャネル脳波における効果的な時間周波数表現学習のための自己教師型フレームワークである。
単一のチャネルのEEGからのみ表現を学習するが、マルチチャネルのベースラインよりも優れています。
部分的なモデルレイヤを使用して、ハイかつ安定したパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-15T02:34:33Z) - Frequency-Aware Masked Autoencoders for Multimodal Pretraining on Biosignals [7.381259294661687]
周波数空間における生体信号の表現をパラメータ化することを学ぶ周波数対応マスク付きオートエンコーダを提案する。
得られたアーキテクチャは、事前トレーニング中にマルチモーダル情報を効果的に利用し、テスト時に様々なタスクやモダリティにシームレスに適応できる。
論文 参考訳(メタデータ) (2023-09-12T02:59:26Z) - Large Transformers are Better EEG Learners [8.930281191465088]
AdaCT - 時系列データを2次元の擬似画像やテキスト形式に変換するためのプラグアンドプレイアダプタ。
AdaCTIは、マルチチャネルまたは長さの単一チャネル時系列データを擬似画像に変換して、微調整された事前学習された視覚変換を行う。
AdaCT-Tは、短い単一チャネルデータをテキストに変換し、訓練済み言語変換器を微調整する。
論文 参考訳(メタデータ) (2023-08-20T12:54:17Z) - Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - A Theoretical Understanding of Shallow Vision Transformers: Learning,
Generalization, and Sample Complexity [71.11795737362459]
自己注意モジュールを持つViTは、最近多くのタスクで経験的な成功を収めた。
しかし、理論学習の一般化分析は、ほとんどノイズが多く、解答的である。
本稿では,分類タスクのための浅いViTの理論的解析を行った。
論文 参考訳(メタデータ) (2023-02-12T22:12:35Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z) - FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization [72.9385528828306]
典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
論文 参考訳(メタデータ) (2021-04-07T03:15:10Z) - Learning from Heterogeneous EEG Signals with Differentiable Channel
Reordering [51.633889765162685]
CHARMは、一貫性のない入力チャネルをまたいだ単一のニューラルネットワークのトレーニング方法である。
我々は4つの脳波分類データセットの実験を行い、CHARMの有効性を実証した。
論文 参考訳(メタデータ) (2020-10-21T12:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。