論文の概要: MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction
- arxiv url: http://arxiv.org/abs/2508.03166v1
- Date: Tue, 05 Aug 2025 07:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.832761
- Title: MiSTR: Multi-Modal iEEG-to-Speech Synthesis with Transformer-Based Prosody Prediction and Neural Phase Reconstruction
- Title(参考訳): MiSTR: トランスフォーマーに基づく韻律予測とニューラル位相再構成によるマルチモーダルiEEG音声合成
- Authors: Mohammed Salah Al-Radhi, Géza Németh, Branislav Gerazov,
- Abstract要約: 我々は,iEEG信号の時間的,スペクトル的,神経生理学的表現を統合した深層学習フレームワークMiSTRを紹介する。
パブリックなiEEGデータセットに基づいて、MiSTRは最先端の音声インテリジェンスを達成する。
- 参考スコア(独自算出の注目度): 7.233654849867492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech synthesis from intracranial EEG (iEEG) signals offers a promising avenue for restoring communication in individuals with severe speech impairments. However, achieving intelligible and natural speech remains challenging due to limitations in feature representation, prosody modeling, and phase reconstruction. We introduce MiSTR, a deep-learning framework that integrates: 1) Wavelet-based feature extraction to capture fine-grained temporal, spectral, and neurophysiological representations of iEEG signals, 2) A Transformer-based decoder for prosody-aware spectrogram prediction, and 3) A neural phase vocoder enforcing harmonic consistency via adaptive spectral correction. Evaluated on a public iEEG dataset, MiSTR achieves state-of-the-art speech intelligibility, with a mean Pearson correlation of 0.91 between reconstructed and original Mel spectrograms, improving over existing neural speech synthesis baselines.
- Abstract(参考訳): 頭蓋内脳波(iEEG)信号からの音声合成は、重度音声障害を有する個人におけるコミュニケーション回復に有望な道を提供する。
しかし, 特徴表現, 韻律モデリング, 位相再構成の限界により, 不明瞭で自然な発話を実現することは依然として困難である。
私たちは、深層学習フレームワークMiSTRを紹介します。
1)iEEG信号の微細な時間的、スペクトル的、神経生理学的表現を捉えるウェーブレットに基づく特徴抽出
2) Prosody-aware Spectrogram 予測のためのトランスフォーマーベースのデコーダ
3)適応スペクトル補正による高調波整合性を有する神経相ボコーダ。
MiSTRは、公開iEEGデータセットに基づいて、再建されたMelスペクトログラムとオリジナルのMelスペクトログラムの間の平均ピアソン相関を0.91とすることで、最先端の音声の可知性を達成し、既存の音声合成ベースラインよりも改善する。
関連論文リスト
- Prosody-Guided Harmonic Attention for Phase-Coherent Neural Vocoding in the Complex Spectrum [1.3066182802188198]
韻律誘導型高調波アテンションを導入し、音声セグメント符号化を強化し、逆STFTによる波形合成のための複雑なスペクトル成分を直接予測する。
ベンチマークデータセットの実験では、HiFi-GANとAutoVocoderに対する一貫した利得が示されている: F0 RMSEは22%削減され、音声/無声エラーは18%減少し、MOSスコアは0.15改善された。
これらの結果から,韻律誘導された注意と直接複素スペクトルモデリングが組み合わさることで,より自然な,ピッチ精度,頑健な合成音声が得られることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T20:53:24Z) - E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - Brain-Gen: Towards Interpreting Neural Signals for Stimulus Reconstruction Using Transformers and Latent Diffusion Models [1.479639149658596]
脳波記録から観察された視覚刺激に関連する空間的時間的表現を抽出する枠組みを提案する。
我々の研究は、脳波信号の一般化可能な意味解釈に向けた重要な一歩である。
論文 参考訳(メタデータ) (2025-12-21T18:20:21Z) - NeuroCLIP: Brain-Inspired Prompt Tuning for EEG-to-Image Multimodal Contrastive Learning [13.254096454986318]
脳波から画像へのコントラスト学習に適したプロンプトチューニングフレームワークであるNeuroCLIPを提案する。
我々は初めて視覚的プロンプトトークンを脳波画像アライメントに導入し、グローバルなモダリティレベルのプロンプトとして機能する。
THINGS-EEG2データセットでは、NeuroCLIPはゼロショット画像検索において63.2%のTop-1精度を達成した。
論文 参考訳(メタデータ) (2025-11-12T12:13:24Z) - Reconstructing Unseen Sentences from Speech-related Biosignals for Open-vocabulary Neural Communication [45.424817836500175]
本研究は,様々な音声モードにおける未確認文に対する音声合成の可能性について検討する。
本研究では,高密度脳波(EEG)信号から抽出した音素レベル情報と筋電図(EMG)信号とを独立に利用した。
本研究は, 生体信号に基づく文レベルの音声合成が未確認文の再構成に有効であることを示すものである。
論文 参考訳(メタデータ) (2025-10-31T07:31:13Z) - WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [48.20672677492805]
現在のEEG/MEG-to-textデコーディングシステムには3つの重要な制限がある。
BrainECHOは、分離された表現学習を利用する多段階フレームワークである。
BrainECHOは文、セッション、主題に依存しない条件をまたいだ堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Tagged-MRI Sequence to Audio Synthesis via Self Residual Attention
Guided Heterogeneous Translator [12.685817926272161]
我々は,タグ付きMRIのシーケンスから対応する音声波形への変換を,データセットサイズに制限のあるエンドツーエンドのディープラーニングフレームワークを開発した。
筆者らの枠組みは, 自己残留注意戦略を指導した, 完全畳み込み非対称性トランスレータを基盤としている。
実験の結果,63個のタグ付きMRIシークエンスと音声音響を併用し,明瞭な音声波形を生成できることが判明した。
論文 参考訳(メタデータ) (2022-06-05T23:08:34Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Class-Conditional Defense GAN Against End-to-End Speech Attacks [82.21746840893658]
本稿では,DeepSpeech や Lingvo といった先進的な音声テキストシステムを騙すために開発された,エンドツーエンドの敵対攻撃に対する新しいアプローチを提案する。
従来の防御手法とは異なり、提案手法は入力信号のオートエンコードのような低レベル変換を直接利用しない。
我々の防衛GANは、単語誤り率と文レベルの認識精度において、従来の防衛アルゴリズムよりもかなり優れています。
論文 参考訳(メタデータ) (2020-10-22T00:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。