Fugu-MT 論文翻訳(概要): Decode Neural signal as Speech

論文の概要: Decode Neural signal as Speech

arxiv url: http://arxiv.org/abs/2403.01748v1
Date: Mon, 4 Mar 2024 05:55:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 20:08:14.879606
Title: Decode Neural signal as Speech
Title（参考訳）: 音声としてデコードする神経信号
Authors: Yiqian Yang, Yiqun Duan, Qiang Zhang, Renjing Xu, Hui Xiong
Abstract要約: 音声復号化における脳からテキストへのMEG信号の変換について検討する。本モデルでは,プレトレーニングや教師の強制を伴わずに,60.30点,52.89点のBLEU-1スコアが得られた。
参考スコア（独自算出の注目度）: 25.542869620947567
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decoding language from brain dynamics is an important open direction in the realm of brain-computer interface (BCI), especially considering the rapid growth of large language models. Compared to invasive-based signals which require electrode implantation surgery, non-invasive neural signals (e.g. EEG, MEG) have attracted increasing attention considering their safety and generality. However, the exploration is not adequate in three aspects: 1) previous methods mainly focus on EEG but none of the previous works address this problem on MEG with better signal quality; 2) prior works have predominantly used ``teacher-forcing" during generative decoding, which is impractical; 3) prior works are mostly ``BART-based" not fully auto-regressive, which performs better in other sequence tasks. In this paper, we explore the brain-to-text translation of MEG signals in a speech-decoding formation. Here we are the first to investigate a cross-attention-based ``whisper" model for generating text directly from MEG signals without teacher forcing. Our model achieves impressive BLEU-1 scores of 60.30 and 52.89 without pretraining \& teacher-forcing on two major datasets (\textit{GWilliams} and \textit{Schoffelen}). This paper conducts a comprehensive review to understand how speech decoding formation performs on the neural decoding tasks, including pretraining initialization, training \& evaluation set splitting, augmentation, and scaling law.
Abstract（参考訳）: 脳力学から言語を復号することは脳-コンピュータインタフェース(BCI)の領域において重要な方向であり、特に大規模言語モデルの急速な成長を考慮している。電極移植手術を必要とする侵襲的信号と比較して、非侵襲的神経信号(EEG、MEGなど)は安全性と汎用性を考慮して注目されている。しかし、探検は3つの面において不十分である。 1) 従来の手法は主に脳波に焦点を合わせていたが, 信号品質が向上したMEGでは, いずれもこの問題に対処していない。 2) 先行作品は,生成的復号処理において,主に「教師の強制」を用いてきたが,実用的でない。 3) 先行研究は主に,「bart-based」ではなく「bart-based」であり,他のシーケンス課題においてもよく機能する。本稿では,教師の強制なしに meg 信号から直接テキストを生成するための「whisper」モデルについて,まず,音声復号化における meg 信号の脳からテキストへの変換について検討する。我々のモデルは,2つの主要なデータセット (\textit{GWilliams} と \textit{Schoffelen} ) を事前学習することなく,60.30 と 52.89 の BLEU-1 スコアを得る。本稿では,音声復号生成が神経復号処理にどのように作用するかを包括的に検討し,初期化の事前訓練,分割,拡張,スケーリング法則の訓練などを行う。

関連論文リスト

Decoding Covert Speech from EEG Using a Functional Areas Spatio-Temporal Transformer [9.914613096064848]
脳波(EEG)からの音声の復号は、脳波マッピングの理解が限られているため困難である。本研究では,57人の右利き英語話者を対象に,大規模多言語音声脳波を作成した。本研究は,前頭側頭葉領域と側頭葉領域のFAST生成活性化マップを可視化することにより,音声のニューラル特徴を明らかにした。
論文参考訳（メタデータ） (2025-04-02T10:38:08Z)
Enhancing Listened Speech Decoding from EEG via Parallel Phoneme Sequence Prediction [36.38186261968484]
本稿では脳波(EEG)信号から聴取音声の復号化を促進する新しい手法を提案する。テキスト音素列を同時に復号する補助音素予測器を用いる。
論文参考訳（メタデータ） (2025-01-08T21:11:35Z)
NeuGPT: Unified multi-modal Neural GPT [48.70587003475798]
NeuGPTは、ニューラルネットワーク研究の断片化された風景を調和させるために設計された、画期的なマルチモーダル言語生成モデルである。我々のモデルは主に脳からテキストへのデコーディングに焦点をあて、BLEU-1では6.94から12.92に、ROUGE-1Fでは6.93から13.06に改善した。また、脳の信号をシミュレートし、新しい神経インターフェースとして機能する。
論文参考訳（メタデータ） (2024-10-28T10:53:22Z)
BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [29.78480739360263]
本稿では,vEctor-quantized speCtrogram を用いた意味脳信号復号法を提案する。 BrainECHOは、1)音声スペクトログラムの自動符号化、2)ブレインオーディオ遅延空間アライメント、3)Whisperファインタニングによるセマンティックテキスト生成を行う。 BrainECHOは、2つの広く受け入れられたリソースで同じデータ分割設定の下で最先端のメソッドより優れている。
論文参考訳（メタデータ） (2024-10-19T04:29:03Z)
MAD: Multi-Alignment MEG-to-Text Decoding [21.155031900491654]
本稿では,複数のアライメントを持つ音声復号化フレームワークを用いて,MEG信号をテキストに変換する手法を提案する。我々は、$textitGWilliams$データセットのBLEU-1スコアを著しく達成し、BLEU-1メトリックのベースラインを5.49から10.44に大幅に上回った。
論文参考訳（メタデータ） (2024-06-03T16:43:10Z)
Language Reconstruction with Brain Predictive Coding from fMRI Data [28.217967547268216]
予測符号化の理論は、人間の脳が将来的な単語表現を継続的に予測していることを示唆している。 textscPredFTは、BLEU-1スコアが最大27.8%$の最先端のデコード性能を実現する。
論文参考訳（メタデータ） (2024-05-19T16:06:02Z)
Open-vocabulary Auditory Neural Decoding Using fMRI-prompted LLM [19.53589633360839]
本稿では,新しい方法である textbfBrain Prompt GPT (BP-GPT) を紹介する。本手法は,fMRIから抽出した脳の表現をプロンプトとして利用することにより,GPT-2を用いてfMRI信号の刺激をテキストに復号することができる。 BP-GPTをオープンソースの聴覚意味的デコードデータセットで評価し、METEORで4.61%、BERTScoreで2.43%の大幅な改善を実現した。
論文参考訳（メタデータ） (2024-05-13T15:25:11Z)
SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文参考訳（メタデータ） (2022-10-07T17:57:45Z)
Toward a realistic model of speech processing in the brain with self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。 We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文参考訳（メタデータ） (2022-06-03T17:01:46Z)
SVTS: Scalable Video-to-Speech Synthesis [105.29009019733803]
本稿では,ビデオ・トゥ・スペクトログラム予測器と事前学習したニューラルボコーダの2つのコンポーネントからなるスケーラブルなビデオ音声合成フレームワークを提案する。私たちは、挑戦的なLSS3データセットで不可解な結果を示す最初の人です。
論文参考訳（メタデータ） (2022-05-04T13:34:07Z)
Open Vocabulary Electroencephalography-To-Text Decoding and Zero-shot Sentiment Classification [78.120927891455]
最先端のブレイン・トゥ・テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る結果となった。
論文参考訳（メタデータ） (2021-12-05T21:57:22Z)
DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文参考訳（メタデータ） (2021-10-13T01:39:57Z)
Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文参考訳（メタデータ） (2020-11-02T10:57:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。