論文の概要: Pretraining Large Brain Language Model for Active BCI: Silent Speech
- arxiv url: http://arxiv.org/abs/2504.21214v1
- Date: Tue, 29 Apr 2025 22:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.058288
- Title: Pretraining Large Brain Language Model for Active BCI: Silent Speech
- Title(参考訳): 能動BCIのための大脳言語モデルの事前学習:無声音声
- Authors: Jinzhao Zhou, Zehong Cao, Yiqun Duan, Connor Barkley, Daniel Leong, Xiaowei Jiang, Quoc-Toan Nguyen, Ziyi Zhao, Thomas Do, Yu-Cheng Chang, Sheng-Fu Liang, Chin-teng Lin,
- Abstract要約: 本稿では,脳-コンピュータインタフェース(BCI)システムにおけるサイレント音声デコーディングについて検討する。
12名の被験者から120時間以上の脳波記録を収集した。
能動BCIのための無声音声を復号化するためのLBLM(Large Brain Language Model)を提案する。
- 参考スコア(独自算出の注目度): 31.13704519986318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores silent speech decoding in active brain-computer interface (BCI) systems, which offer more natural and flexible communication than traditional BCI applications. We collected a new silent speech dataset of over 120 hours of electroencephalogram (EEG) recordings from 12 subjects, capturing 24 commonly used English words for language model pretraining and decoding. Following the recent success of pretraining large models with self-supervised paradigms to enhance EEG classification performance, we propose Large Brain Language Model (LBLM) pretrained to decode silent speech for active BCI. To pretrain LBLM, we propose Future Spectro-Temporal Prediction (FSTP) pretraining paradigm to learn effective representations from unlabeled EEG data. Unlike existing EEG pretraining methods that mainly follow a masked-reconstruction paradigm, our proposed FSTP method employs autoregressive modeling in temporal and frequency domains to capture both temporal and spectral dependencies from EEG signals. After pretraining, we finetune our LBLM on downstream tasks, including word-level and semantic-level classification. Extensive experiments demonstrate significant performance gains of the LBLM over fully-supervised and pretrained baseline models. For instance, in the difficult cross-session setting, our model achieves 47.0\% accuracy on semantic-level classification and 39.6\% in word-level classification, outperforming baseline methods by 5.4\% and 7.3\%, respectively. Our research advances silent speech decoding in active BCI systems, offering an innovative solution for EEG language model pretraining and a new dataset for fundamental research.
- Abstract(参考訳): 本稿では,脳-コンピュータインタフェース(BCI)システムにおけるサイレント音声デコーディングについて検討し,従来のBCIアプリケーションよりも自然で柔軟なコミュニケーションを提供する。
12名の被験者から120時間以上の脳波記録(EEG)を収集し,言語モデルの事前学習と復号のための24の英単語を抽出した。
脳波分類性能を高めるための自己教師型パラダイムを用いた大規模モデルの事前訓練が最近成功した後、我々は活動的BCIのためのサイレントスピーチを復号化するためのLBLM(Large Brain Language Model)を提案する。
LBLMを事前訓練するために、未ラベルの脳波データから効果的な表現を学習するためのFSTP事前訓練パラダイムを提案する。
マスク-再構成パラダイムに主に従う既存の脳波事前学習法とは異なり,提案手法では時間領域と周波数領域における自己回帰モデルを用いて脳波信号から時間的およびスペクトル的依存関係を抽出する。
事前学習後、単語レベルや意味レベルの分類を含む下流タスクでLBLMを微調整する。
大規模な実験は、完全に教師されたベースラインモデルと事前訓練されたベースラインモデルに比較して、LBLMの大幅な性能向上を示す。
例えば、難解なクロスセッション設定では、セマンティックレベルの分類では47.0\%、ワードレベルの分類では39.6\%、ベースライン法では5.4\%、ベースライン法では7.3\%である。
本研究は,脳波言語モデル事前学習のための革新的なソリューションと基礎研究のための新しいデータセットを提供することにより,活動的BCIシステムにおけるサイレント音声復号化を推し進める。
関連論文リスト
- Tracking Articulatory Dynamics in Speech with a Fixed-Weight BiLSTM-CNN Architecture [0.0]
本稿では,ある音声音響に係わる舌と唇の調音特徴を予測するための新しい手法を提案する。
提案するネットワークは,同時記録音声とEMA(Electromagnetic Articulography)データセットの2つのデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-04-25T05:57:22Z) - Ensemble Machine Learning Model for Inner Speech Recognition: A Subject-Specific Investigation [0.22198209072577352]
本研究では,128チャネル表面の脳波信号を用いて内部音声を分類する機械学習手法を開発した。
6つのMLアルゴリズムの性能を評価し,アンサンブルモデルを提案する。
提案手法は,脳波信号を用いた内部音声の分類において有望であることを示す。
論文 参考訳(メタデータ) (2024-12-09T16:50:49Z) - Enhancing Audio-Language Models through Self-Supervised Post-Training with Text-Audio Pairs [3.8300818830608345]
音声とテキストのマルチモーダルコントラスト学習戦略が急速に注目されている。
これらのモデルが自然言語や時間的関係を理解する能力は、いまだに未探索でオープンな研究分野である。
本稿では,時間的インスツルメント手法であるTeminalを用いて,時間的理解を伴うマルチモーダルALMを,従来の音声言語タスクの能力を損なうことなく装備することを提案する。
論文 参考訳(メタデータ) (2024-08-17T18:53:17Z) - Towards Linguistic Neural Representation Learning and Sentence Retrieval from Electroencephalogram Recordings [27.418738450536047]
脳波信号を文に変換するための2ステップパイプラインを提案する。
まず,自然読解中に記録された脳波データから単語レベルの意味情報を学習できることを確認する。
脳波エンコーダからの予測に基づいて文章を検索するために,学習不要な検索手法を用いる。
論文 参考訳(メタデータ) (2024-08-08T03:40:25Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - Deep Representation Learning for Open Vocabulary
Electroencephalography-to-Text Decoding [6.014363449216054]
神経科学に現代的な表現型学習アプローチをもたらす非侵襲的な脳記録のためのエンドツーエンドのディープラーニングフレームワークを提案する。
BLEU-1スコアは42.75%,ROUGE-1-F33.28%,BERTScore-F53.86%で,それぞれ3.38%,8.43%,6.31%であった。
論文 参考訳(メタデータ) (2023-11-15T08:03:09Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。