論文の概要: Inner speech recognition through electroencephalographic signals
- arxiv url: http://arxiv.org/abs/2210.06472v1
- Date: Tue, 11 Oct 2022 08:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 17:17:55.677698
- Title: Inner speech recognition through electroencephalographic signals
- Title(参考訳): 脳波信号による内部音声認識
- Authors: Francesca Gasparini, Elisa Cazzaniga, Aurora Saibene
- Abstract要約: 本研究は、脳波信号から始まる内的音声認識に焦点を当てる。
脳波のテキストへの復号は、限られた数の単語(コマンド)の分類として理解されるべきである。
音声関連BCIは、脳信号からの音声コマンドを通してデバイスを制御する効果的な音声通信戦略を提供する。
- 参考スコア(独自算出の注目度): 2.578242050187029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work focuses on inner speech recognition starting from EEG signals.
Inner speech recognition is defined as the internalized process in which the
person thinks in pure meanings, generally associated with an auditory imagery
of own inner "voice". The decoding of the EEG into text should be understood as
the classification of a limited number of words (commands) or the presence of
phonemes (units of sound that make up words). Speech-related BCIs provide
effective vocal communication strategies for controlling devices through speech
commands interpreted from brain signals, improving the quality of life of
people who have lost the capability to speak, by restoring communication with
their environment. Two public inner speech datasets are analysed. Using this
data, some classification models are studied and implemented starting from
basic methods such as Support Vector Machines, to ensemble methods such as the
eXtreme Gradient Boosting classifier up to the use of neural networks such as
Long Short Term Memory (LSTM) and Bidirectional Long Short Term Memory
(BiLSTM). With the LSTM and BiLSTM models, generally not used in the literature
of inner speech recognition, results in line with or superior to those present
in the stateof-the-art are obtained.
- Abstract(参考訳): 本研究は脳波信号から始まる内的音声認識に焦点を当てる。
内的音声認識は、人が純粋な意味で考える内的プロセスとして定義され、一般に、内的「声」の聴覚イメージと関連付けられる。
テキストへの脳波の復号は、限られた数の単語(コマンド)の分類や、音素(単語を構成する音の単位)の存在として理解されるべきである。
音声関連bcisは、脳信号から解釈された音声コマンドを介してデバイスを制御するための効果的な音声通信戦略を提供し、会話能力を失った人々の生活の質を改善し、環境とのコミュニケーションを回復する。
2つの公開内部音声データセットを解析する。
このデータを用いて、Support Vector Machinesのような基本的な手法から、Long Short Term Memory(LSTM)やBidirectional Long Term Memory(BiLSTM)といったニューラルネットワークの使用まで、eXtreme Gradient Boosting分類器のようなアンサンブル手法まで、いくつかの分類モデルを研究、実装した。
内部音声認識の文献では一般的に使われていないLSTMとBiLSTMのモデルでは、最先端のものと同等以上の結果が得られる。
関連論文リスト
- Towards Unified Neural Decoding of Perceived, Spoken and Imagined Speech from EEG Signals [1.33134751838052]
本研究では,非侵襲的ニューラルネットワーク復号法におけるディープラーニングモデルの有効性について検討した。
それは、知覚、過度、ささやき、想像されたスピーチなど、異なる音声パラダイムの区別に焦点を当てた。
論文 参考訳(メタデータ) (2024-11-14T07:20:08Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [29.78480739360263]
本稿では,vEctor-quantized speCtrogram を用いた意味脳信号復号法を提案する。
BrainECHOは、1)音声スペクトログラムの自動符号化、2)ブレインオーディオ遅延空間アライメント、3)Whisperファインタニングによるセマンティックテキスト生成を行う。
BrainECHOは、2つの広く受け入れられたリソースで同じデータ分割設定の下で最先端のメソッドより優れている。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Direction-Aware Joint Adaptation of Neural Speech Enhancement and
Recognition in Real Multiparty Conversational Environments [21.493664174262737]
本稿では,現実の多人数会話環境における音声コミュニケーションを支援する拡張現実ヘッドセットの雑音音声認識について述べる。
本研究では,高信頼な推定文字を用いたクリーン音声信号とノイズ音声信号を用いて,マスク推定器とASRモデルを実行時に共同で更新する半教師付き適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-15T03:43:35Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - The "Sound of Silence" in EEG -- Cognitive voice activity detection [22.196642357767338]
音声の沈黙領域に対応する脳活動の「非音声(NS)」状態について検討した。
音声知覚はそのような状態の存在を検査するために研究され、その後、音声の想像力においてその識別が行われる。
認識性能と視覚的区別は脳波におけるサイレントシグネチャの存在を示す。
論文 参考訳(メタデータ) (2020-10-12T07:47:36Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Understanding effect of speech perception in EEG based speech
recognition systems [3.5786621294068377]
音声と平行に記録された脳波信号を用いて、孤立的かつ連続的な音声認識を行う。
我々は、より堅牢な脳波に基づく音声認識システムを設計するために、この音声認識成分を脳波信号から切り離すことが可能かどうかを検討する。
論文 参考訳(メタデータ) (2020-05-29T05:56:09Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。