論文の概要: Understanding effect of speech perception in EEG based speech
recognition systems
- arxiv url: http://arxiv.org/abs/2006.01261v1
- Date: Fri, 29 May 2020 05:56:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 00:06:02.530313
- Title: Understanding effect of speech perception in EEG based speech
recognition systems
- Title(参考訳): 脳波に基づく音声認識システムにおける音声認識の理解効果
- Authors: Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik
- Abstract要約: 音声と平行に記録された脳波信号を用いて、孤立的かつ連続的な音声認識を行う。
我々は、より堅牢な脳波に基づく音声認識システムを設計するために、この音声認識成分を脳波信号から切り離すことが可能かどうかを検討する。
- 参考スコア(独自算出の注目度): 3.5786621294068377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The electroencephalography (EEG) signals recorded in parallel with speech are
used to perform isolated and continuous speech recognition. During speaking
process, one also hears his or her own speech and this speech perception is
also reflected in the recorded EEG signals. In this paper we investigate
whether it is possible to separate out this speech perception component from
EEG signals in order to design more robust EEG based speech recognition
systems. We further demonstrate predicting EEG signals recorded in parallel
with speaking from EEG signals recorded in parallel with passive listening and
vice versa with very low normalized root mean squared error (RMSE). We finally
demonstrate both isolated and continuous speech recognition using EEG signals
recorded in parallel with listening, speaking and improve the previous
connectionist temporal classification (CTC) model results demonstrated by
authors in [1] using their data set.
- Abstract(参考訳): 音声と平行に記録された脳波信号を用いて、孤立的かつ連続的な音声認識を行う。
発話の過程では、自身の音声も聞き取り、この音声知覚は、記録された脳波信号にも反映される。
本稿では,よりロバストなeegベースの音声認識システムを設計するために,脳波信号から音声知覚成分を分離できるかどうかを検討する。
さらに、受動的聴取と並行して記録された脳波信号と並行して記録された脳波信号と、非常に低い正規化ルート平均二乗誤差(RMSE)とを同時に予測する。
脳波信号を用いた孤立音声認識と連続音声認識の両方を聴取, 発話, 従来のコネクショニスト時間分類 (CTC) モデルを用いて, [1] の著者がデータセットを用いて示す結果を改善した。
関連論文リスト
- NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Inner speech recognition through electroencephalographic signals [2.578242050187029]
本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
論文 参考訳(メタデータ) (2022-10-11T08:29:12Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Constrained Variational Autoencoder for improving EEG based Speech
Recognition Systems [3.5786621294068377]
本稿では、新しい制約付き損失関数を持つリカレントニューラルネットワーク(RNN)に基づく変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 生の脳波特徴から生成された脳波特徴を用いて, 連続的および孤立的な音声認識システムを構築し, 実験を行った。
論文 参考訳(メタデータ) (2020-06-01T06:03:50Z) - Predicting Different Acoustic Features from EEG and towards direct
synthesis of Audio Waveform from EEG [3.5786621294068377]
著者らは脳波(EEG)の特徴から音声を合成するための予備的な結果を提供した。
深層学習モデルは生の脳波波形信号を入力とし、直接出力として音声波形を生成する。
本稿では,音声知覚・生成過程における非侵襲的脳波信号と音響的特徴の関連性について述べる。
論文 参考訳(メタデータ) (2020-05-29T05:50:03Z) - Speech Synthesis using EEG [4.312746668772343]
我々は、脳波特徴から直接音響的特徴を予測するために、リカレントニューラルネットワーク(RNN)回帰モデルを利用する。
本稿では,脳波を用いた音声合成結果について述べる。
論文 参考訳(メタデータ) (2020-02-22T03:53:45Z) - Continuous Silent Speech Recognition using EEG [3.5786621294068377]
我々は、被験者がテキストに音声を起こさずに、頭の中で英語の文章を読んでいる間に、平行に記録された脳波信号を翻訳する。
脳波信号を用いた連続無声音声認識の実現可能性を示した。
論文 参考訳(メタデータ) (2020-02-06T18:28:45Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。