論文の概要: Decode Neural signal as Speech
- arxiv url: http://arxiv.org/abs/2403.01748v2
- Date: Tue, 26 Mar 2024 15:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 21:44:06.958762
- Title: Decode Neural signal as Speech
- Title(参考訳): ニューラル信号を音声として復号する
- Authors: Yiqian Yang, Yiqun Duan, Qiang Zhang, Renjing Xu, Hui Xiong,
- Abstract要約: 音声復号化における脳からテキストへのMEG信号の変換について検討する。
本モデルでは,プレトレーニングや教師の強制を伴わずに,60.30点,52.89点のBLEU-1スコアが得られた。
- 参考スコア(独自算出の注目度): 23.808515586987006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding language from brain dynamics is an important open direction in the realm of brain-computer interface (BCI), especially considering the rapid growth of large language models. Compared to invasive-based signals which require electrode implantation surgery, non-invasive neural signals (e.g. EEG, MEG) have attracted increasing attention considering their safety and generality. However, the exploration is not adequate in three aspects: 1) previous methods mainly focus on EEG but none of the previous works address this problem on MEG with better signal quality; 2) prior works have predominantly used ``teacher-forcing" during generative decoding, which is impractical; 3) prior works are mostly ``BART-based" not fully auto-regressive, which performs better in other sequence tasks. In this paper, we explore the brain-to-text translation of MEG signals in a speech-decoding formation. Here we are the first to investigate a cross-attention-based ``whisper" model for generating text directly from MEG signals without teacher forcing. Our model achieves impressive BLEU-1 scores of 60.30 and 52.89 without pretraining \& teacher-forcing on two major datasets (\textit{GWilliams} and \textit{Schoffelen}). This paper conducts a comprehensive review to understand how speech decoding formation performs on the neural decoding tasks, including pretraining initialization, training \& evaluation set splitting, augmentation, and scaling law.
- Abstract(参考訳): 脳力学から言語を復号することは脳-コンピュータインタフェース(BCI)の領域において重要な方向であり、特に大規模言語モデルの急速な成長を考慮している。
電極移植手術を必要とする侵襲的信号と比較して、非侵襲的神経信号(eg EEG, MEG)は安全性と汎用性を考慮して注目を集めている。
しかし、この探検は3つの側面において不十分である。
1) 従来の手法は主に脳波に焦点を合わせていたが, 信号品質が向上したMEGでは, これまでのどの研究もこの問題に対処していない。
2 先行研究は、生成復号の際に「教師強制」を主に用いており、これは実用的でない。
3)先行研究は主に「BARTベース」ではなく「BARTベース」であり,他のシーケンスタスクにおいて優れた性能を発揮する。本稿では,教師の強制を伴わずにMEG信号から直接テキストを生成する「Whisper」モデルを初めて検討する。
我々のモデルは,2つの主要なデータセット (\textit{GWilliams} と \textit{Schoffelen} ) を事前学習することなく,60.30 と 52.89 の BLEU-1 スコアを得る。
本稿では,音声復号生成が神経復号処理にどのように作用するかを包括的に検討し,初期化の事前訓練,分割,拡張,スケーリング法則の訓練などを行う。
関連論文リスト
- NeuGPT: Unified multi-modal Neural GPT [48.70587003475798]
NeuGPTは、ニューラルネットワーク研究の断片化された風景を調和させるために設計された、画期的なマルチモーダル言語生成モデルである。
我々のモデルは主に脳からテキストへのデコーディングに焦点をあて、BLEU-1では6.94から12.92に、ROUGE-1Fでは6.93から13.06に改善した。
また、脳の信号をシミュレートし、新しい神経インターフェースとして機能する。
論文 参考訳(メタデータ) (2024-10-28T10:53:22Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [29.78480739360263]
本稿では,vEctor-quantized speCtrogram を用いた意味脳信号復号法を提案する。
BrainECHOは、1)音声スペクトログラムの自動符号化、2)ブレインオーディオ遅延空間アライメント、3)Whisperファインタニングによるセマンティックテキスト生成を行う。
BrainECHOは、2つの広く受け入れられたリソースで同じデータ分割設定の下で最先端のメソッドより優れている。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - MAD: Multi-Alignment MEG-to-Text Decoding [21.155031900491654]
本稿では,複数のアライメントを持つ音声復号化フレームワークを用いて,MEG信号をテキストに変換する手法を提案する。
我々は、$textitGWilliams$データセットのBLEU-1スコアを著しく達成し、BLEU-1メトリックのベースラインを5.49から10.44に大幅に上回った。
論文 参考訳(メタデータ) (2024-06-03T16:43:10Z) - Language Reconstruction with Brain Predictive Coding from fMRI Data [28.217967547268216]
予測符号化の理論は、人間の脳が将来的な単語表現を継続的に予測していることを示唆している。
textscPredFTは、BLEU-1スコアが最大27.8%$の最先端のデコード性能を実現する。
論文 参考訳(メタデータ) (2024-05-19T16:06:02Z) - Open-vocabulary Auditory Neural Decoding Using fMRI-prompted LLM [19.53589633360839]
本稿では,新しい方法である textbfBrain Prompt GPT (BP-GPT) を紹介する。
本手法は,fMRIから抽出した脳の表現をプロンプトとして利用することにより,GPT-2を用いてfMRI信号の刺激をテキストに復号することができる。
BP-GPTをオープンソースの聴覚意味的デコードデータセットで評価し、METEORで4.61%、BERTScoreで2.43%の大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-05-13T15:25:11Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。
私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文 参考訳(メタデータ) (2022-05-04T13:34:07Z) - Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot
Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。
本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。
脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文 参考訳(メタデータ) (2021-12-05T21:57:22Z) - Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。
私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文 参考訳(メタデータ) (2020-11-02T10:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。