論文の概要: Brain-to-Speech: Prosody Feature Engineering and Transformer-Based Reconstruction
- arxiv url: http://arxiv.org/abs/2604.05751v1
- Date: Tue, 07 Apr 2026 11:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.795436
- Title: Brain-to-Speech: Prosody Feature Engineering and Transformer-Based Reconstruction
- Title(参考訳): 脳から音声へ:韻律の特徴工学とトランスフォーマーによる再構成
- Authors: Mohammed Salah Al-Radhi, Géza Németh, Andon Tchechmedjiev, Binbin Xu,
- Abstract要約: この章は頭蓋内脳波(iEEG)データから脳と音声の合成に新しいアプローチを提示する。
プロソディ・アウェアな特徴工学と高忠実度音声再構成のための高度なトランスフォーマー・ベース・モデルを強調している。
- 参考スコア(独自算出の注目度): 3.580075756626343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This chapter presents a novel approach to brain-to-speech (BTS) synthesis from intracranial electroencephalography (iEEG) data, emphasizing prosody-aware feature engineering and advanced transformer-based models for high-fidelity speech reconstruction. Driven by the increasing interest in decoding speech directly from brain activity, this work integrates neuroscience, artificial intelligence, and signal processing to generate accurate and natural speech. We introduce a novel pipeline for extracting key prosodic features directly from complex brain iEEG signals, including intonation, pitch, and rhythm. To effectively utilize these crucial features for natural-sounding speech, we employ advanced deep learning models. Furthermore, this chapter introduces a novel transformer encoder architecture specifically designed for brain-to-speech tasks. Unlike conventional models, our architecture integrates the extracted prosodic features to significantly enhance speech reconstruction, resulting in generated speech with improved intelligibility and expressiveness. A detailed evaluation demonstrates superior performance over established baseline methods, such as traditional Griffin-Lim and CNN-based reconstruction, across both quantitative and perceptual metrics. By demonstrating these advancements in feature extraction and transformer-based learning, this chapter contributes to the growing field of AI-driven neuroprosthetics, paving the way for assistive technologies that restore communication for individuals with speech impairments. Finally, we discuss promising future research directions, including the integration of diffusion models and real-time inference systems.
- Abstract(参考訳): 本章では、脳内脳波(iEEG)データから脳音声合成(BTS)の新たなアプローチ、韻律認識機能工学、高忠実度音声再構成のための高度なトランスフォーマーモデルを提案する。
脳活動から直接音声を復号することへの関心が高まっていることから、この研究は神経科学、人工知能、信号処理を統合し、正確で自然な音声を生成する。
我々は、複雑な脳iEEG信号から、イントネーション、ピッチ、リズムなどの重要な韻律的特徴を直接抽出する新しいパイプラインを導入する。
これらの重要な特徴を自然な音声に効果的に活用するために,先進的な深層学習モデルを用いる。
さらに本章では,脳から音声へのタスクに特化して設計されたトランスフォーマーエンコーダアーキテクチャを紹介する。
従来のモデルとは異なり,本アーキテクチャでは抽出した韻律的特徴を統合して音声再構成を大幅に強化し,その結果として,可知性と表現性が向上する。
従来のGriffin-LimやCNNベースの再構成など,定量的および知覚的指標の両面で,確立されたベースライン手法よりも優れた性能を示す。
特徴抽出とトランスフォーマーに基づく学習におけるこれらの進歩を実証することにより、この章は、AI駆動型神経補綴学の分野の成長に寄与し、音声障害のある個人のためのコミュニケーションを回復する補助技術への道を開く。
最後に,拡散モデルとリアルタイム推論システムの統合を含む将来的な研究の方向性について論じる。
関連論文リスト
- Neural Decoding of Overt Speech from ECoG Using Vision Transformers and Contrastive Representation Learning [1.58476321728042]
Speech Brain Computer Interfacesは、重度の麻痺を抱える人々に対して、コミュニケーションができない有望なソリューションを提供する。
近年の研究では、表面電図(ECoG)や皮質内記録からの理解不能音声の再構築が実証されている。
本稿では,エンコーダ-デコーダディープニューラルアーキテクチャに基づいて,視覚変換器とコントラスト学習を統合したオフライン音声復号パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-04T09:47:15Z) - CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Understanding Auditory Evoked Brain Signal via Physics-informed Embedding Network with Multi-Task Transformer [3.261870217889503]
マルチタスク変換器(PEMT-Net)を用いた物理インフォームド・エンベディング・ネットワークという,革新的なマルチタスク学習モデルを提案する。
PEMT-Netは物理インフォームド埋め込みとディープラーニング技術によりデコード性能を向上させる。
特定のデータセットに対する実験は、PEMT-Netがマルチタスクの聴覚信号復号における顕著な性能を示した。
論文 参考訳(メタデータ) (2024-06-04T06:53:32Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - EmoDiarize: Speaker Diarization and Emotion Identification from Speech
Signals using Convolutional Neural Networks [0.0]
本研究では,音声認識における深層学習技術の統合について検討する。
既存の話者ダイアリゼーションパイプラインと、畳み込みニューラルネットワーク(CNN)上に構築された感情識別モデルを組み合わせたフレームワークを導入する。
提案モデルでは,63%の非重み付き精度が得られ,音声信号中の感情状態を正確に同定する上で,顕著な効率性を示した。
論文 参考訳(メタデータ) (2023-10-19T16:02:53Z) - SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing [17.128885611538486]
パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-02-27T11:48:54Z) - Canonical Cortical Graph Neural Networks and its Application for Speech
Enhancement in Future Audio-Visual Hearing Aids [0.726437825413781]
本稿では, 層内変調を用いたマルチモーダル情報と正準相関解析(CCA)を組み合わせた, より生物学的に妥当な自己教師型機械学習手法を提案する。
この手法は、よりクリーンなオーディオ再構成とエネルギー効率の両方を考慮した最近の最先端の結果より優れており、スモーザーでスモーザーなニューロンの発火速度分布によって説明されている。
論文 参考訳(メタデータ) (2022-06-06T15:20:07Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。