論文の概要: Enhancing Listened Speech Decoding from EEG via Parallel Phoneme Sequence Prediction
- arxiv url: http://arxiv.org/abs/2501.04844v1
- Date: Wed, 08 Jan 2025 21:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:22.857121
- Title: Enhancing Listened Speech Decoding from EEG via Parallel Phoneme Sequence Prediction
- Title(参考訳): 並列音素系列予測による脳波音声復号化
- Authors: Jihwan Lee, Tiantian Feng, Aditya Kommineni, Sudarsana Reddy Kadiri, Shrikanth Narayanan,
- Abstract要約: 本稿では脳波(EEG)信号から聴取音声の復号化を促進する新しい手法を提案する。
テキスト音素列を同時に復号する補助音素予測器を用いる。
- 参考スコア(独自算出の注目度): 36.38186261968484
- License:
- Abstract: Brain-computer interfaces (BCI) offer numerous human-centered application possibilities, particularly affecting people with neurological disorders. Text or speech decoding from brain activities is a relevant domain that could augment the quality of life for people with impaired speech perception. We propose a novel approach to enhance listened speech decoding from electroencephalography (EEG) signals by utilizing an auxiliary phoneme predictor that simultaneously decodes textual phoneme sequences. The proposed model architecture consists of three main parts: EEG module, speech module, and phoneme predictor. The EEG module learns to properly represent EEG signals into EEG embeddings. The speech module generates speech waveforms from the EEG embeddings. The phoneme predictor outputs the decoded phoneme sequences in text modality. Our proposed approach allows users to obtain decoded listened speech from EEG signals in both modalities (speech waveforms and textual phoneme sequences) simultaneously, eliminating the need for a concatenated sequential pipeline for each modality. The proposed approach also outperforms previous methods in both modalities. The source code and speech samples are publicly available.
- Abstract(参考訳): 脳-コンピュータインターフェース(BCI)は、特に神経疾患の患者に影響を及ぼす、多くの人間中心の応用可能性を提供する。
脳活動からのテキストや音声の復号化は、聴覚障害のある人の生活の質を高めるための関連分野である。
本稿では, テキスト音声シーケンスを同時に復号する補助音素予測器を用いて, 脳波信号から聴取音声を復号する手法を提案する。
提案するモデルアーキテクチャは,脳波モジュール,音声モジュール,音素予測器の3つの主要部分から構成される。
EEGモジュールは、EEG信号をEEG埋め込みに適切に表現することを学ぶ。
音声モジュールは、脳波埋め込みから音声波形を生成する。
音素予測器は、復号された音素列をテキストモダリティで出力する。
提案手法により,脳波信号から音声波形とテキスト音素シーケンスの両方を同時に復号化することで,各モーダルに対する連結的な逐次パイプラインの必要性を解消できる。
提案手法は,従来の手法よりも両モードで優れていた。
ソースコードと音声サンプルは公開されている。
関連論文リスト
- BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [29.78480739360263]
本稿では,vEctor-quantized speCtrogram を用いた意味脳信号復号法を提案する。
BrainECHOは、1)音声スペクトログラムの自動符号化、2)ブレインオーディオ遅延空間アライメント、3)Whisperファインタニングによるセマンティックテキスト生成を行う。
BrainECHOは、2つの広く受け入れられたリソースで同じデータ分割設定の下で最先端のメソッドより優れている。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Toward Fully-End-to-End Listened Speech Decoding from EEG Signals [29.548052495254257]
脳波信号からの完全エンドツーエンド音声デコーディングのための新しいフレームワークであるFESDEを提案する。
提案手法は,脳波モジュールと音声モジュール,およびコネクタから構成される。
音声符号化のモデル特性を明らかにするために, きめ細かい音素解析を行った。
論文 参考訳(メタデータ) (2024-06-12T21:08:12Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文 参考訳(メタデータ) (2022-10-11T08:29:12Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - End-to-end translation of human neural activity to speech with a
dual-dual generative adversarial network [39.014888541156296]
人間の神経活動を直接音声に翻訳するエンド・ツー・エンドモデルを提案する。
参加者の注意を引くための新しい脳波データセット(EEG)を作成します。
提案手法は,ニューラルアクティビティの単語長と文長のシーケンスを音声に翻訳する。
論文 参考訳(メタデータ) (2021-10-13T10:54:41Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。