論文の概要: Analysis of EEG frequency bands for Envisioned Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.15250v1
- Date: Tue, 29 Mar 2022 05:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 16:31:58.598412
- Title: Analysis of EEG frequency bands for Envisioned Speech Recognition
- Title(参考訳): 想定音声認識のための脳波周波数帯域の解析
- Authors: Ayush Tripathi
- Abstract要約: 脳波の周波数帯と脳の異なる葉から得られる信号の意義を分析することを目的としている。
分類精度は, それぞれ85.93%, 87.27%, 87.51%である。
- 参考スコア(独自算出の注目度): 4.695687634290404
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of Automatic speech recognition (ASR) interfaces have become
increasingly popular in daily life for use in interaction and control of
electronic devices. The interfaces currently being used are not feasible for a
variety of users such as those suffering from a speech disorder, locked-in
syndrome, paralysis or people with utmost privacy requirements. In such cases,
an interface that can identify envisioned speech using electroencephalogram
(EEG) signals can be of great benefit. Various works targeting this problem
have been done in the past. However, there has been limited work in identifying
the frequency bands ($\delta, \theta, \alpha, \beta, \gamma$) of the EEG signal
that contribute towards envisioned speech recognition. Therefore, in this work,
we aim to analyze the significance of different EEG frequency bands and signals
obtained from different lobes of the brain and their contribution towards
recognizing envisioned speech. Signals obtained from different lobes and
bandpass filtered for different frequency bands are fed to a spatio-temporal
deep learning architecture with Convolutional Neural Network (CNN) and Long
Short-Term Memory (LSTM). The performance is evaluated on a publicly available
dataset comprising of three classification tasks - digit, character and images.
We obtain a classification accuracy of $85.93\%$, $87.27\%$ and $87.51\%$ for
the three tasks respectively. The code for the implementation has been made
available at https://github.com/ayushayt/ImaginedSpeechRecognition.
- Abstract(参考訳): 自動音声認識(asr)インタフェースの使用は、電子機器のインタラクションや制御に利用するために日常生活でますます普及している。
現在使用されているインターフェースは、音声障害、ロックイン症候群、麻痺、あるいはプライバシー要件がほとんどない人々など、さまざまなユーザに対して実現不可能である。
このような場合、脳波(EEG)信号を用いて想定された音声を識別できるインタフェースは、非常に有用である。
この問題を対象とする様々な研究が過去に行われている。
しかし、想定された音声認識に寄与する脳波信号の周波数帯域(\delta, \theta, \alpha, \beta, \gamma$)を識別する作業は限られている。
そこで本研究では,脳の異なる葉から得られた脳波周波数帯域と信号の意義と,その発声音声の認識への寄与について検討する。
異なる周波数帯域に対してフィルタされた異なるローブとバンドパスから得られる信号は、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)を備えた時空間ディープラーニングアーキテクチャに供給される。
この性能は、桁、文字、画像の3つの分類タスクからなる公開データセットで評価される。
3つのタスクに対してそれぞれ85.93\%$、87.27\%$、857.51\%$の分類精度を得る。
実装のコードはhttps://github.com/ayushayt/ImaginedSpeechRecognitionで公開されている。
関連論文リスト
- BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - SPEAKER VGG CCT: Cross-corpus Speech Emotion Recognition with Speaker
Embedding and Vision Transformers [0.0]
本稿では,音声認識のための新しい学習方法を提案する。
これは、CCT(Compact Convolutional Transformers)とスピーカー埋め込みの組み合わせに基づいている。
クロスコーパス設定でいくつかのベンチマークで実験が行われた。
論文 参考訳(メタデータ) (2022-11-04T10:49:44Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Deep Learning Radio Frequency Signal Classification with Hybrid Images [0.0]
入力トレーニングデータに使用できるさまざまな前処理ステップに注目し、結果を固定されたディープラーニングアーキテクチャでテストする。
本稿では,時間領域情報と周波数領域情報の両方を利用するハイブリッド画像を提案し,コンピュータビジョン問題として分類する。
論文 参考訳(メタデータ) (2021-05-19T11:12:09Z) - Toward asynchronous EEG-based BCI: Detecting imagined words segments in
continuous EEG signals [0.16058099298620418]
仮想音声に基づく非同期Brain-Computer Interface (BCI) は、ユーザーが望んだ時点で、ユーザーが予測された音声の脳波信号を復号することで、外部デバイスを制御したり、メッセージを発信することができるツールである。
本研究では, ウェーブレット分解, 経験的モード分解, 周波数エネルギー, フラクタル次元, カオス理論特徴量に基づく特徴抽出の5つの手法を提案し, 連続脳波信号から想像された単語セグメントを検出するタスクを解く。
論文 参考訳(メタデータ) (2021-04-13T00:13:42Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice
Activity Detection [48.80449801938696]
本稿では,音声活動検出機能とエンドツーエンドの自動音声認識を統合する。
我々は,コネクショニストの時間的分類(CTC)と,同期/アテンションの拡張に焦点を当てた。
簡単なしきい値を用いた音声区間検出のためのキューとしてラベルを用いる。
論文 参考訳(メタデータ) (2020-02-03T03:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。