論文の概要: EEG-to-Voice Decoding of Spoken and Imagined speech Using Non-Invasive EEG
- arxiv url: http://arxiv.org/abs/2512.22146v1
- Date: Sun, 14 Dec 2025 16:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.071291
- Title: EEG-to-Voice Decoding of Spoken and Imagined speech Using Non-Invasive EEG
- Title(参考訳): 非侵襲的脳波を用いた音声と想像音声の脳波対音声復号
- Authors: Hanbeot Park, Yunjeong Cho, Hunhee Kim,
- Abstract要約: ニューラルシグナルからの音声通信の復元は、脳とコンピュータのインターフェイス研究の中心的な目標である。
動的時間ワープ(DTW)や明示的な時間的アライメントを伴わない非侵襲的な脳波信号から音声を直接再構成する脳波対音声のパラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Restoring speech communication from neural signals is a central goal of brain-computer interface research, yet EEG-based speech reconstruction remains challenging due to limited spatial resolution, susceptibility to noise, and the absence of temporally aligned acoustic targets in imagined speech. In this study, we propose an EEG-to-Voice paradigm that directly reconstructs speech from non-invasive EEG signals without dynamic time warping (DTW) or explicit temporal alignment. The proposed pipeline generates mel-spectrograms from EEG in an open-loop manner using a subject-specific generator, followed by pretrained vocoder and automatic speech recognition (ASR) modules to synthesize speech waveforms and decode text. Separate generators were trained for spoken speech and imagined speech, and transfer learning-based domain adaptation was applied by pretraining on spoken speech and adapting to imagined speech. A minimal language model-based correction module was optionally applied to correct limited ASR errors while preserving semantic structure. The framework was evaluated under 2 s and 4 s speech conditions using acoustic-level metrics (PCC, RMSE, MCD) and linguistic-level metrics (CER, WER). Stable acoustic reconstruction and comparable linguistic accuracy were observed for both spoken speech and imagined speech. While acoustic similarity decreased for longer utterances, text-level decoding performance was largely preserved, and word-position analysis revealed a mild increase in decoding errors toward later parts of sentences. The language model-based correction consistently reduced CER and WER without introducing semantic distortion. These results demonstrate the feasibility of direct, open-loop EEG-to-Voice reconstruction for spoken speech and imagined speech without explicit temporal alignment.
- Abstract(参考訳): ニューラルシグナルからの音声通信の復元は脳とコンピュータのインタフェース研究の中心的な目標であるが、脳波に基づく音声再構成は、空間分解能の制限、雑音への感受性、時間的に整列した音響目標の欠如により、依然として困難である。
本研究では,動的時間ワープ(DTW)や時間的アライメントを伴わない非侵襲的な脳波信号から直接音声を再構成する脳波対音声のパラダイムを提案する。
提案するパイプラインは,脳波からのメルスペクトルを主観的生成器を用いてオープンループで生成し,次いで事前訓練されたボコーダと自動音声認識(ASR)モジュールを用いて音声波形を合成し,テキストを復号する。
個別生成器は, 音声と想像音声の訓練を行い, 伝達学習に基づくドメイン適応は, 音声を事前学習し, 想像音声に適応することによって適用した。
最小限の言語モデルに基づく修正モジュールは、意味構造を保持しながら制限されたASRエラーを修正するために任意に適用された。
この枠組みは, 音響レベル指標(PCC, RMSE, MCD)と言語レベル指標(CER, WER)を用いて, 2sおよび4sの音声条件下で評価した。
音声と想像音声の両方に対して、安定な音響再構成と同等の言語的精度が観察された。
音声の類似性は長い発話では低下するが, テキストレベルの復号性能はほぼ維持され, 単語位置分析の結果, 文の後半部分に対する復号誤りは軽度に増加した。
言語モデルに基づく修正は、意味的歪みを導入することなく、CERとWERを一貫して削減した。
これらの結果は, 時間的アライメントを伴わない音声と想像音声の直接的, オープンループ型脳波-Voice再構成の実現可能性を示した。
関連論文リスト
- Neural Decoding of Overt Speech from ECoG Using Vision Transformers and Contrastive Representation Learning [1.58476321728042]
Speech Brain Computer Interfacesは、重度の麻痺を抱える人々に対して、コミュニケーションができない有望なソリューションを提供する。
近年の研究では、表面電図(ECoG)や皮質内記録からの理解不能音声の再構築が実証されている。
本稿では,エンコーダ-デコーダディープニューラルアーキテクチャに基づいて,視覚変換器とコントラスト学習を統合したオフライン音声復号パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-04T09:47:15Z) - MOSS-Speech: Towards True Speech-to-Speech Models Without Text Guidance [66.74042564585942]
MOSS-Speechは、テキストガイダンスに頼ることなく直接理解し、音声を生成する、真の音声音声合成大言語モデルである。
我々の研究は、表現的かつ効率的なエンドツーエンドの音声対話のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-10-01T04:32:37Z) - Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。
次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。
生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文 参考訳(メタデータ) (2025-05-20T20:03:45Z) - SepALM: Audio Language Models Are Error Correctors for Robust Speech Separation [15.58921460046093]
本稿では,音声言語モデル(ALM)を用いて,予備的分離後のテキスト領域内での音声の修正と再合成を行う先駆的アプローチであるSepALMを紹介する。
SepALMは、セパレータ、修正器、シンセサイザー、調整器の4つのコアコンポーネントから構成される。
我々の実験は、SepALMが音声分離の精度を高めるだけでなく、新しい音響環境における適応性を著しく向上させることを実証している。
論文 参考訳(メタデータ) (2025-05-06T08:04:37Z) - Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR [18.701864254184308]
自己教師付き音声表現に基づくリズムと音声の変換手法を組み合わせることで、典型的な音声に変形をマッピングする。
提案したリズム変換は, より重篤な変形症例を有するトーゴコーパスの話者のパフォーマンスを特に向上させることが判明した。
論文 参考訳(メタデータ) (2025-01-17T15:39:21Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。