論文の概要: Advancing Speech Synthesis using EEG
- arxiv url: http://arxiv.org/abs/2004.04731v2
- Date: Sun, 3 May 2020 20:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 03:35:48.364330
- Title: Advancing Speech Synthesis using EEG
- Title(参考訳): 脳波を用いた音声合成の進歩
- Authors: Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik
- Abstract要約: 音声文と平行に記録された脳波(EEG)の特徴から音響的特徴を予測するために,注目度モデルを導入する。
まず注意モデルを用いて脳波特徴から直接音響特徴を予測し、次に2段階のアプローチを用いて脳波特徴から音響特徴を予測する。
- 参考スコア(独自算出の注目度): 3.5786621294068377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce attention-regression model to demonstrate
predicting acoustic features from electroencephalography (EEG) features
recorded in parallel with spoken sentences. First we demonstrate predicting
acoustic features directly from EEG features using our attention model and then
we demonstrate predicting acoustic features from EEG features using a two-step
approach where in the first step we use our attention model to predict
articulatory features from EEG features and then in second step another
attention-regression model is trained to transform the predicted articulatory
features to acoustic features. Our proposed attention-regression model
demonstrates superior performance compared to the regression model introduced
by authors in [1] when tested using their data set for majority of the subjects
during test time. The results presented in this paper further advances the work
described by authors in [1].
- Abstract(参考訳): 本稿では,音声文と平行に記録された脳波特徴から音響的特徴を予測するための注意回帰モデルを提案する。
まず、注意モデルを用いて脳波特徴から直接音響特徴を予測し、次に2段階のアプローチを用いて脳波特徴から音響特徴を予測し、第1段階では、脳波特徴から音声特徴を予測し、第2段階では、予測された聴覚特徴から音響特徴へ変換する別の注意回帰モデルを訓練する。
提案する注意回帰モデルは,被験者の大半を対象にデータセットを用いてテストを行った場合,著者が[1]で導入した回帰モデルと比較して優れた性能を示す。
本論文で提示された結果は, [1] の著者によって記述された研究をさらに進展させる。
関連論文リスト
- NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - DriPP: Driven Point Processes to Model Stimuli Induced Patterns in M/EEG
Signals [62.997667081978825]
我々はDriPPと呼ばれる新しい統計点過程モデルを開発する。
我々は、このモデルのパラメータを推定するために、高速で原理化された予測最大化(EM)アルゴリズムを導出する。
標準MEGデータセットの結果から,我々の手法が事象関連ニューラルレスポンスを明らかにすることが示された。
論文 参考訳(メタデータ) (2021-12-08T13:07:21Z) - Improving End-To-End Modeling for Mispronunciation Detection with
Effective Augmentation Mechanisms [17.317583079824423]
本稿では,E2E MDモデルの識別能力を高めるための2つの戦略を提案する。
1つは、DNN-HMM音響モデルから音声識別に関する知識を抽出することを目的とした入力拡張である。
もう1つはラベル拡張で、トレーニングデータの書き起こしからより多くの音韻学的パターンを捕捉する。
論文 参考訳(メタデータ) (2021-10-17T06:11:15Z) - Energy-based View of Retrosynthesis [70.66156081030766]
エネルギーモデルとしてシーケンスおよびグラフベースの手法を統一するフレームワークを提案する。
本稿では,ベイズ前方および後方予測に対して一貫した訓練を行うフレームワーク内での新しい二重変種を提案する。
このモデルは、反応型が不明なテンプレートフリーアプローチに対して、最先端の性能を9.6%向上させる。
論文 参考訳(メタデータ) (2020-07-14T18:51:06Z) - Predicting Different Acoustic Features from EEG and towards direct
synthesis of Audio Waveform from EEG [3.5786621294068377]
著者らは脳波(EEG)の特徴から音声を合成するための予備的な結果を提供した。
深層学習モデルは生の脳波波形信号を入力とし、直接出力として音声波形を生成する。
本稿では,音声知覚・生成過程における非侵襲的脳波信号と音響的特徴の関連性について述べる。
論文 参考訳(メタデータ) (2020-05-29T05:50:03Z) - Generating EEG features from Acoustic features [13.089515271477824]
脳波の特徴を音響的特徴から予測するために、リカレントニューラルネットワーク(RNN)に基づく回帰モデルとGAN(Generative Adversarial Network)を用いる。
脳波を用いた音声合成における従来の課題と比較した。
論文 参考訳(メタデータ) (2020-02-29T16:44:08Z) - Speech Synthesis using EEG [4.312746668772343]
我々は、脳波特徴から直接音響的特徴を予測するために、リカレントニューラルネットワーク(RNN)回帰モデルを利用する。
本稿では,脳波を用いた音声合成結果について述べる。
論文 参考訳(メタデータ) (2020-02-22T03:53:45Z) - Generating diverse and natural text-to-speech samples using a quantized
fine-grained VAE and auto-regressive prosody prior [53.69310441063162]
本稿では,より自然な音響サンプルを生成できる離散潜在空間における逐次前処理を提案する。
本研究では,聴取試験,自動音声認識(ASR)性能の客観的指標,韻律特性の測定によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T12:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。