論文の概要: Decode Neural signal as Speech
- arxiv url: http://arxiv.org/abs/2403.01748v1
- Date: Mon, 4 Mar 2024 05:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:08:14.879606
- Title: Decode Neural signal as Speech
- Title(参考訳): 音声としてデコードする神経信号
- Authors: Yiqian Yang, Yiqun Duan, Qiang Zhang, Renjing Xu, Hui Xiong
- Abstract要約: 音声復号化における脳からテキストへのMEG信号の変換について検討する。
本モデルでは,プレトレーニングや教師の強制を伴わずに,60.30点,52.89点のBLEU-1スコアが得られた。
- 参考スコア(独自算出の注目度): 25.542869620947567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding language from brain dynamics is an important open direction in the
realm of brain-computer interface (BCI), especially considering the rapid
growth of large language models. Compared to invasive-based signals which
require electrode implantation surgery, non-invasive neural signals (e.g. EEG,
MEG) have attracted increasing attention considering their safety and
generality. However, the exploration is not adequate in three aspects: 1)
previous methods mainly focus on EEG but none of the previous works address
this problem on MEG with better signal quality; 2) prior works have
predominantly used ``teacher-forcing" during generative decoding, which is
impractical; 3) prior works are mostly ``BART-based" not fully auto-regressive,
which performs better in other sequence tasks. In this paper, we explore the
brain-to-text translation of MEG signals in a speech-decoding formation. Here
we are the first to investigate a cross-attention-based ``whisper" model for
generating text directly from MEG signals without teacher forcing. Our model
achieves impressive BLEU-1 scores of 60.30 and 52.89 without pretraining \&
teacher-forcing on two major datasets (\textit{GWilliams} and
\textit{Schoffelen}). This paper conducts a comprehensive review to understand
how speech decoding formation performs on the neural decoding tasks, including
pretraining initialization, training \& evaluation set splitting, augmentation,
and scaling law.
- Abstract(参考訳): 脳力学から言語を復号することは脳-コンピュータインタフェース(BCI)の領域において重要な方向であり、特に大規模言語モデルの急速な成長を考慮している。
電極移植手術を必要とする侵襲的信号と比較して、非侵襲的神経信号(EEG、MEGなど)は安全性と汎用性を考慮して注目されている。
しかし、探検は3つの面において不十分である。
1) 従来の手法は主に脳波に焦点を合わせていたが, 信号品質が向上したMEGでは, いずれもこの問題に対処していない。
2) 先行作品は,生成的復号処理において,主に「教師の強制」を用いてきたが,実用的でない。
3) 先行研究は主に,「bart-based」ではなく「bart-based」であり,他のシーケンス課題においてもよく機能する。本稿では,教師の強制なしに meg 信号から直接テキストを生成するための「whisper」 モデルについて,まず,音声復号化における meg 信号の脳からテキストへの変換について検討する。
我々のモデルは,2つの主要なデータセット (\textit{GWilliams} と \textit{Schoffelen} ) を事前学習することなく,60.30 と 52.89 の BLEU-1 スコアを得る。
本稿では,音声復号生成が神経復号処理にどのように作用するかを包括的に検討し,初期化の事前訓練,分割,拡張,スケーリング法則の訓練などを行う。
関連論文リスト
- Enhancing EEG-to-Text Decoding through Transferable Representations from
Pre-trained Contrastive EEG-Text Masked Autoencoder [73.94142233076079]
コントラスト型脳波テキストマスケード自動エンコーダ(CET-MAE)を提案する。
また、E2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)と呼ばれるフレームワークを開発し、EEGシーケンスからテキストをデコードする。
論文 参考訳(メタデータ) (2024-02-27T11:45:21Z) - Data Contamination Issues in Brain-to-Text Decoding [37.863706557699146]
非侵襲的な認知信号を自然言語にデコードすることは、長い間、実用的な脳-コンピュータインターフェース(BCI)の構築の目標であった。
最近の大きなマイルストーンは、機能的磁気共鳴イメージング(fMRI)や脳波(EEG)といった認知信号を、オープンな語彙設定の下でテキストに復号することに成功している。
認知信号復号タスクにおいて、トレーニング、検証、テストのためのデータセットを分割する方法はまだ議論の余地がある。
論文 参考訳(メタデータ) (2023-12-18T07:22:39Z) - BELT:Bootstrapping Electroencephalography-to-Language Decoding and
Zero-Shot Sentiment Classification by Natural Language Supervision [31.382825932199935]
提案手法は,脳波表現学習をブートストラップする汎用的で効率的なフレームワークである。
意味情報とゼロショットの一般化を理解するための大きなLM能力により、BELTはインターネットスケールのデータセットで訓練された大規模なLMを使用する。
脳から言語への翻訳やゼロショット感情分類を含む2つの特徴ある脳復号タスクについて、最先端の成果を得た。
論文 参考訳(メタデータ) (2023-09-21T13:24:01Z) - UniCoRN: Unified Cognitive Signal ReconstructioN bridging cognitive
signals and human language [23.623579364849526]
本稿では,fMRI時系列と人間の言語を橋渡しする最初のオープン語彙課題であるfMRI2textを提案する。
我々は、脳復号のためのベースラインソリューションUniCoRN: Unified Cognitive Signal ReconstructioNを提案する。
このモデルでは、fMRI2text上で34.77%のBLEUスコアが得られ、EEGto-textデコーディングに一般化すると37.04%のBLEUが得られる。
論文 参考訳(メタデータ) (2023-07-06T05:26:49Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language
Understanding and Generation [95.49128988683191]
シークエンス・ツー・シークエンス(seq2seq)学習は、大規模事前学習言語モデルにおいて一般的な方法である。
本稿では,エンコーディング強化のseq2seq事前学習戦略,すなわちE2S2を提案する。
E2S2は、より効率的な自己教師付き情報をエンコーダに統合することで、Seq2seqモデルを改善する。
論文 参考訳(メタデータ) (2022-05-30T08:25:36Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Decoding EEG Brain Activity for Multi-Modal Natural Language Processing [9.35961671939495]
自然言語処理タスクを改善するために脳波脳活動データの可能性を体系的に分析する最初の大規模研究を行った。
脳波信号を周波数帯域にフィルタリングすることはブロードバンド信号よりも有益であることがわかった。
単語埋め込みタイプの範囲のために、EEGデータは二分および三分感情の分類を改善し、複数のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-02-17T09:44:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。