論文の概要: Improving EEG based continuous speech recognition using GAN
- arxiv url: http://arxiv.org/abs/2006.01260v1
- Date: Fri, 29 May 2020 06:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 00:06:14.421361
- Title: Improving EEG based continuous speech recognition using GAN
- Title(参考訳): GANを用いた脳波連続音声認識の改良
- Authors: Gautam Krishna, Co Tran, Mason Carnahan, Ahmed Tewfik
- Abstract要約: 我々は、GAN(Generative Adversarial Network)を用いて、生脳波の特徴からより有意義な脳波(EEG)特徴を生成できることを実証した。
提案手法は付加的なセンサ情報を用いることなく実装することができるが,[1]著者らは,脳波に基づく連続音声認識システムの性能向上のために,音響情報や調音情報などの付加的特徴を用いている。
- 参考スコア(独自算出の注目度): 3.5786621294068377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we demonstrate that it is possible to generate more meaningful
electroencephalography (EEG) features from raw EEG features using generative
adversarial networks (GAN) to improve the performance of EEG based continuous
speech recognition systems. We improve the results demonstrated by authors in
[1] using their data sets for for some of the test time experiments and for
other cases our results were comparable with theirs. Our proposed approach can
be implemented without using any additional sensor information, whereas in [1]
authors used additional features like acoustic or articulatory information to
improve the performance of EEG based continuous speech recognition systems.
- Abstract(参考訳): 本稿では、GAN(Generative Adversarial Network)を用いて、生の脳波特徴からより有意義な脳波特徴(EEG)を生成し、脳波に基づく連続音声認識システムの性能を向上させることを実証する。
テスト時間実験のためにデータセットを使用して,[1]で著者が示した結果を改善するとともに,他のケースでは,その結果に匹敵する結果が得られた。
提案手法は, 追加のセンサ情報を用いずに実装できるが, [1] 著者は脳波に基づく連続音声認識システムの性能を向上させるために, 音響情報や調音情報などの追加機能を用いた。
関連論文リスト
- NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Brain Signals to Rescue Aphasia, Apraxia and Dysarthria Speech
Recognition [14.544989316741091]
本稿では,失語症,失語症,構音障害に対する自動音声認識システムの性能を向上させるための深層学習に基づくアルゴリズムを提案する。
分離音声認識タスクにおいて,テスト時間中のデコード性能が50%以上向上することを示す。
その結果, 失語症, 失語症, 構音障害から回復した脳卒中患者の実時間ロバスト音声補綴物の設計に非侵襲的神経信号を利用する可能性を示す第一歩が示された。
論文 参考訳(メタデータ) (2021-02-28T03:27:02Z) - Constrained Variational Autoencoder for improving EEG based Speech
Recognition Systems [3.5786621294068377]
本稿では、新しい制約付き損失関数を持つリカレントニューラルネットワーク(RNN)に基づく変分オートエンコーダ(VAE)モデルを提案する。
本研究では, 生の脳波特徴から生成された脳波特徴を用いて, 連続的および孤立的な音声認識システムを構築し, 実験を行った。
論文 参考訳(メタデータ) (2020-06-01T06:03:50Z) - Understanding effect of speech perception in EEG based speech
recognition systems [3.5786621294068377]
音声と平行に記録された脳波信号を用いて、孤立的かつ連続的な音声認識を行う。
我々は、より堅牢な脳波に基づく音声認識システムを設計するために、この音声認識成分を脳波信号から切り離すことが可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-05-29T05:56:09Z) - Generating EEG features from Acoustic features [13.089515271477824]
脳波の特徴を音響的特徴から予測するために、リカレントニューラルネットワーク(RNN)に基づく回帰モデルとGAN(Generative Adversarial Network)を用いる。
脳波を用いた音声合成における従来の課題と比較した。
論文 参考訳(メタデータ) (2020-02-29T16:44:08Z) - Speech Synthesis using EEG [4.312746668772343]
我々は、脳波特徴から直接音響的特徴を予測するために、リカレントニューラルネットワーク(RNN)回帰モデルを利用する。
本稿では,脳波を用いた音声合成結果について述べる。
論文 参考訳(メタデータ) (2020-02-22T03:53:45Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。