論文の概要: Large Transformers are Better EEG Learners
- arxiv url: http://arxiv.org/abs/2308.11654v2
- Date: Sat, 13 Apr 2024 05:11:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 23:57:12.057381
- Title: Large Transformers are Better EEG Learners
- Title(参考訳): 大型トランスフォーマーはより優れた脳波学習者
- Authors: Bingxin Wang, Xiaowen Fu, Yuan Lan, Luchan Zhang, Wei Zheng, Yang Xiang,
- Abstract要約: AdaCT - 時系列データを2次元の擬似画像やテキスト形式に変換するためのプラグアンドプレイアダプタ。
AdaCTIは、マルチチャネルまたは長さの単一チャネル時系列データを擬似画像に変換して、微調整された事前学習された視覚変換を行う。
AdaCT-Tは、短い単一チャネルデータをテキストに変換し、訓練済み言語変換器を微調整する。
- 参考スコア(独自算出の注目度): 8.930281191465088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained large transformer models have achieved remarkable performance in the fields of natural language processing and computer vision. However, the limited availability of public electroencephalogram (EEG) data presents a unique challenge for extending the success of these models to EEG-based tasks. To address this gap, we propose AdaCT, plug-and-play Adapters designed for Converting Time series data into spatio-temporal 2D pseudo-images or text forms. Essentially, AdaCT-I transforms multi-channel or lengthy single-channel time series data into spatio-temporal 2D pseudo-images for fine-tuning pre-trained vision transformers, while AdaCT-T converts short single-channel data into text for fine-tuning pre-trained language transformers. The proposed approach allows for seamless integration of pre-trained vision models and language models in time series decoding tasks, particularly in EEG data analysis. Experimental results on diverse benchmark datasets, including Epileptic Seizure Recognition, Sleep-EDF, and UCI HAR, demonstrate the superiority of AdaCT over baseline methods. Overall, we provide a promising transfer learning framework for leveraging the capabilities of pre-trained vision and language models in EEG-based tasks, thereby advancing the field of time series decoding and enhancing interpretability in EEG data analysis. Our code will be available at https://github.com/wangbxj1234/AdaCE.
- Abstract(参考訳): 事前訓練された大規模トランスモデルは、自然言語処理やコンピュータビジョンの分野で優れた性能を発揮している。
しかし、公的な脳波データ(EEG)が限られていることは、これらのモデルの成功をEEGベースのタスクに拡張する上で、ユニークな課題となる。
このギャップに対処するために,時系列データを時空間2次元擬似画像やテキスト形式に変換するためのプラグアンドプレイ適応器であるAdaCTを提案する。
基本的に、AdaCT-Iは、複数チャンネルまたは長さの単一チャネル時系列データを時空間の2次元擬似イメージに変換し、AdaCT-Tは短い単一チャネルデータをテキストに変換して、訓練済みの言語変換を行う。
提案手法は、特に脳波データ解析において、時系列復号タスクにおいて、事前訓練された視覚モデルと言語モデルのシームレスな統合を可能にする。
Epileptic Seizure Recognition、Sleep-EDF、UCI HARなどの様々なベンチマークデータセットの実験結果は、ベースライン法よりもAdaCTの方が優れていることを示している。
脳波に基づくタスクにおいて、事前学習された視覚と言語モデルの能力を活用し、時系列復号化の分野を前進させ、脳波データ解析における解釈可能性を高めるための有望な伝達学習フレームワークを提供する。
私たちのコードはhttps://github.com/wangbxj1234/AdaCEで公開されます。
関連論文リスト
- Demystifying the Communication Characteristics for Distributed Transformer Models [2.849208476795592]
本稿ではトランスモデルの通信挙動について検討する。
我々はGPTに基づく言語モデルをトランスフォーマーアーキテクチャの汎用性によるケーススタディとして用いている。
高いレベルでは、我々の分析により、より小さなメッセージポイントツーポイント通信を最適化する必要性が明らかになる。
論文 参考訳(メタデータ) (2024-08-19T17:54:29Z) - Large Brain Model for Learning Generic Representations with Tremendous EEG Data in BCI [6.926908480247951]
大型脳モデル(LaBraM)と呼ばれる脳波の統一基盤モデルを提案する。
LaBraMは、EEG信号をEEGチャネルパッチにセグメント化することで、データセット間の学習を可能にする。
次に、マスクされたEEGチャネルパッチの元のニューラルコードを予測することにより、ニューラルトランスフォーマーを事前訓練する。
論文 参考訳(メタデータ) (2024-05-29T05:08:16Z) - VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - ViT2EEG: Leveraging Hybrid Pretrained Vision Transformers for EEG Data [0.0]
画像ネット上で事前学習したハイブリッドビジョントランスフォーマー(ViT)モデルの脳波回帰タスクへの応用を実演する。
このモデルは、ImageNetの重みなしでトレーニングされた同じアーキテクチャのViTなど、他のモデルと比較して、顕著なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2023-08-01T11:10:33Z) - DuETT: Dual Event Time Transformer for Electronic Health Records [14.520791492631114]
我々はDuETTアーキテクチャを紹介した。これは、時間とイベントの両タイプにまたがるように設計されたトランスフォーマーの拡張である。
DuETTは集約された入力を使用し、スパース時系列は一定長さの正規シーケンスに変換される。
本モデルでは,MIMIC-IV と PhysioNet-2012 EHR データセットを用いて,複数の下流タスクにおける最先端のディープラーニングモデルより優れています。
論文 参考訳(メタデータ) (2023-04-25T17:47:48Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - VLDeformer: Learning Visual-Semantic Embeddings by Vision-Language
Transformer Decomposing [7.890230091463883]
視覚言語変換器(VL変換器)は、クロスモーダル検索において顕著な精度を示している。
本稿では,単一の画像やテキストに対して,VL変換器を個別エンコーダとして変更するための新しい視覚言語変換器分解(VLDeformer)を提案する。
論文 参考訳(メタデータ) (2021-10-20T09:00:51Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。