論文の概要: Constrained Variational Autoencoder for improving EEG based Speech
Recognition Systems
- arxiv url: http://arxiv.org/abs/2006.02902v1
- Date: Mon, 1 Jun 2020 06:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:56:35.689044
- Title: Constrained Variational Autoencoder for improving EEG based Speech
Recognition Systems
- Title(参考訳): 脳波に基づく音声認識システム改善のための制約付き変分オートエンコーダ
- Authors: Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik
- Abstract要約: 本稿では、新しい制約付き損失関数を持つリカレントニューラルネットワーク(RNN)に基づく変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 生の脳波特徴から生成された脳波特徴を用いて, 連続的および孤立的な音声認識システムを構築し, 実験を行った。
- 参考スコア(独自算出の注目度): 3.5786621294068377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we introduce a recurrent neural network (RNN) based variational
autoencoder (VAE) model with a new constrained loss function that can generate
more meaningful electroencephalography (EEG) features from raw EEG features to
improve the performance of EEG based speech recognition systems. We demonstrate
that both continuous and isolated speech recognition systems trained and tested
using EEG features generated from raw EEG features using our VAE model results
in improved performance and we demonstrate our results for a limited English
vocabulary consisting of 30 unique sentences for continuous speech recognition
and for an English vocabulary consisting of 2 unique sentences for isolated
speech recognition. We compare our method with another recently introduced
method described by authors in [1] to improve the performance of EEG based
continuous speech recognition systems and we demonstrate that our method
outperforms their method as vocabulary size increases when trained and tested
using the same data set. Even though we demonstrate results only for automatic
speech recognition (ASR) experiments in this paper, the proposed VAE model with
constrained loss function can be extended to a variety of other EEG based brain
computer interface (BCI) applications.
- Abstract(参考訳): 本稿では,より意味のある脳波特徴を生の脳波特徴から生成し,脳波に基づく音声認識システムの性能を向上させることができる新しい制約付き損失関数を備えたリカレントニューラルネットワーク(RNN)ベースの変動型オートエンコーダ(VAE)モデルを提案する。
そこで本研究では,本モデルを用いて脳波特徴量から生成した脳波機能を用いて学習・テストを行う連続音声認識システムにおいて,連続音声認識のための30個の一意文からなる限定英語語彙と,孤立音声認識のための2つの一意文からなる英語語彙について,実験結果を示す。
我々は,脳波を用いた連続音声認識システムの性能向上のために,著者らが最近導入した他の手法と比較し,同じデータセットを用いてトレーニングおよびテストを行った場合,語彙サイズが増大するにつれて,本手法がそれらの手法よりも優れていることを示した。
本稿では,自動音声認識 (asr) 実験でのみ結果を示すが,制約付き損失関数を有するvaeモデルは,他の様々な脳波型ブレイン・コンピュータ・インタフェース (bci) アプリケーションにも拡張可能である。
関連論文リスト
- Large Language Model Based Generative Error Correction: A Challenge and Baselines for Speech Recognition, Speaker Tagging, and Emotion Recognition [110.8431434620642]
生成音声の書き起こし誤り訂正(GenSEC)の課題について紹介する。
この課題は、(i)ASR後の転写補正、(ii)話者タグ付け、(iii)感情認識という、3つのASR後の言語モデリングタスクを含む。
本稿では,ベースライン評価から得られた知見と,今後の評価設計における教訓について論じる。
論文 参考訳(メタデータ) (2024-09-15T16:32:49Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech
Recognition [14.544989316741091]
本稿では,失語症,失語症,構音障害に対する自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。
分離音声認識タスクにおいて,テスト時間中のデコード性能が50%以上向上することを示す。
その結果, 失語症, 失語症, 構音障害から回復した脳卒中患者の実時間ロバスト音声補綴物の設計に非侵襲的神経信号を利用する可能性を示す第一歩が示された。
論文 参考訳(メタデータ) (2021-02-28T03:27:02Z) - Improving EEG based continuous speech recognition using GAN [3.5786621294068377]
我々は、GAN(Generative Adversarial Network)を用いて、生脳波の特徴からより有意義な脳波(EEG)特徴を生成できることを実証した。
提案手法は付加的なセンサ情報を用いることなく実装することができるが,[1]著者らは,脳波に基づく連続音声認識システムの性能向上のために,音響情報や調音情報などの付加的特徴を用いている。
論文 参考訳(メタデータ) (2020-05-29T06:11:33Z) - Understanding effect of speech perception in EEG based speech
recognition systems [3.5786621294068377]
音声と平行に記録された脳波信号を用いて、孤立的かつ連続的な音声認識を行う。
我々は、より堅牢な脳波に基づく音声認識システムを設計するために、この音声認識成分を脳波信号から切り離すことが可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-05-29T05:56:09Z) - EEG based Continuous Speech Recognition using Transformers [13.565270550358397]
エンド・ツー・エンド・エンド・トランスフォーマーを用いた自動音声認識(ASR)モデルを用いて,脳波特徴量を用いた連続音声認識について検討した。
その結果, トランスフォーマーを用いたモデルでは, 繰り返しニューラルネットワーク(RNN)に基づくシーケンス・ツー・シーケンス脳波モデルと比較して, トレーニングの高速化が示されている。
論文 参考訳(メタデータ) (2019-12-31T08:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。