論文の概要: Speech Synthesis using EEG
- arxiv url: http://arxiv.org/abs/2002.12756v2
- Date: Sun, 3 May 2020 20:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 19:18:52.724873
- Title: Speech Synthesis using EEG
- Title(参考訳): 脳波を用いた音声合成
- Authors: Gautam Krishna, Co Tran, Yan Han, Mason Carnahan
- Abstract要約: 我々は、脳波特徴から直接音響的特徴を予測するために、リカレントニューラルネットワーク(RNN)回帰モデルを利用する。
本稿では,脳波を用いた音声合成結果について述べる。
- 参考スコア(独自算出の注目度): 4.312746668772343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we demonstrate speech synthesis using different
electroencephalography (EEG) feature sets recently introduced in [1]. We make
use of a recurrent neural network (RNN) regression model to predict acoustic
features directly from EEG features. We demonstrate our results using EEG
features recorded in parallel with spoken speech as well as using EEG recorded
in parallel with listening utterances. We provide EEG based speech synthesis
results for four subjects in this paper and our results demonstrate the
feasibility of synthesizing speech directly from EEG features.
- Abstract(参考訳): 本稿では,最近 [1] で導入された異なる脳波特徴集合を用いた音声合成について述べる。
我々は、脳波特徴から直接音響的特徴を予測するために、リカレントニューラルネットワーク(RNN)回帰モデルを利用する。
本研究では,音声に並行して記録された脳波特徴と,聞き取り発話に並行して記録された脳波を用いて結果を示す。
本稿では,4名の被験者に対して脳波に基づく音声合成結果を示し,脳波の特徴から直接音声を合成する可能性を示す。
関連論文リスト
- NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder [69.7813498468116]
コントラスト型脳波テキストマスケード自動エンコーダ(CET-MAE)を提案する。
また、E2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)と呼ばれるフレームワークを開発し、EEGシーケンスからテキストをデコードする。
論文 参考訳(メタデータ) (2024-02-27T11:45:21Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Reinforcement Learning for Emotional Text-to-Speech Synthesis with
Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。
i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。
i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文 参考訳(メタデータ) (2021-04-03T13:52:47Z) - Constrained Variational Autoencoder for improving EEG based Speech
Recognition Systems [3.5786621294068377]
本稿では、新しい制約付き損失関数を持つリカレントニューラルネットワーク(RNN)に基づく変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 生の脳波特徴から生成された脳波特徴を用いて, 連続的および孤立的な音声認識システムを構築し, 実験を行った。
論文 参考訳(メタデータ) (2020-06-01T06:03:50Z) - Understanding effect of speech perception in EEG based speech
recognition systems [3.5786621294068377]
音声と平行に記録された脳波信号を用いて、孤立的かつ連続的な音声認識を行う。
我々は、より堅牢な脳波に基づく音声認識システムを設計するために、この音声認識成分を脳波信号から切り離すことが可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-05-29T05:56:09Z) - Predicting Different Acoustic Features from EEG and towards direct
synthesis of Audio Waveform from EEG [3.5786621294068377]
著者らは脳波(EEG)の特徴から音声を合成するための予備的な結果を提供した。
深層学習モデルは生の脳波波形信号を入力とし、直接出力として音声波形を生成する。
本稿では,音声知覚・生成過程における非侵襲的脳波信号と音響的特徴の関連性について述べる。
論文 参考訳(メタデータ) (2020-05-29T05:50:03Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - Advancing Speech Synthesis using EEG [3.5786621294068377]
音声文と平行に記録された脳波(EEG)の特徴から音響的特徴を予測するために,注目度モデルを導入する。
まず注意モデルを用いて脳波特徴から直接音響特徴を予測し、次に2段階のアプローチを用いて脳波特徴から音響特徴を予測する。
論文 参考訳(メタデータ) (2020-04-09T23:58:40Z) - Generating EEG features from Acoustic features [13.089515271477824]
脳波の特徴を音響的特徴から予測するために、リカレントニューラルネットワーク(RNN)に基づく回帰モデルとGAN(Generative Adversarial Network)を用いる。
脳波を用いた音声合成における従来の課題と比較した。
論文 参考訳(メタデータ) (2020-02-29T16:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。