論文の概要: Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model
- arxiv url: http://arxiv.org/abs/2102.03957v1
- Date: Mon, 8 Feb 2021 01:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:55:13.157675
- Title: Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model
- Title(参考訳): 共同CNN-LSTMモデルを用いた単一軌道脳波からのコックテールパーティーにおける注意点抽出
- Authors: Ivine Kuruvila, Jan Muncke, Eghart Fischer, Ulrich Hoppe
- Abstract要約: 人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
- 参考スコア(独自算出の注目度): 0.1529342790344802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human brain performs remarkably well in segregating a particular speaker from
interfering speakers in a multi-speaker scenario. It has been recently shown
that we can quantitatively evaluate the segregation capability by modelling the
relationship between the speech signals present in an auditory scene and the
cortical signals of the listener measured using electroencephalography (EEG).
This has opened up avenues to integrate neuro-feedback into hearing aids
whereby the device can infer user's attention and enhance the attended speaker.
Commonly used algorithms to infer the auditory attention are based on linear
systems theory where the speech cues such as envelopes are mapped on to the EEG
signals. Here, we present a joint convolutional neural network (CNN) - long
short-term memory (LSTM) model to infer the auditory attention. Our joint
CNN-LSTM model takes the EEG signals and the spectrogram of the multiple
speakers as inputs and classifies the attention to one of the speakers. We
evaluated the reliability of our neural network using three different datasets
comprising of 61 subjects where, each subject undertook a dual-speaker
experiment. The three datasets analysed corresponded to speech stimuli
presented in three different languages namely German, Danish and Dutch. Using
the proposed joint CNN-LSTM model, we obtained a median decoding accuracy of
77.2% at a trial duration of three seconds. Furthermore, we evaluated the
amount of sparsity that our model can tolerate by means of magnitude pruning
and found that the model can tolerate up to 50% sparsity without substantial
loss of decoding accuracy.
- Abstract(参考訳): 人間の脳は、マルチスピーカーシナリオにおいて、特定のスピーカーを干渉するスピーカーから分離するのに非常によく機能します。
近年,聴覚場面に存在する音声信号と脳波(eeg)を用いて測定した聴者の皮質信号との関係をモデル化することにより,分離能力の定量的評価が可能となった。
これにより、ニューロフィードバックを補聴器に統合し、ユーザーの注意を推測し、出席する話者を強化することができる。
聴覚注意を推測するために一般的に用いられるアルゴリズムは、脳波信号にエンベロープなどの音声手がかりをマッピングする線形システム理論に基づいている。
本稿では,聴覚注意度を推定する共畳畳畳み込みニューラルネットワーク (CNN) - 長期短期記憶 (LSTM) モデルを提案する。
私達の共同CNN-LSTMモデルは入力として複数のスピーカーのEEG信号そして分光計を取り、スピーカーの1つへの注意を分類します。
61名の被験者からなる3つのデータセットを用いてニューラルネットワークの信頼性を評価し,各被験者がデュアルスピーカ実験を行った。
分析された3つのデータセットは、ドイツ語、デンマーク語、オランダ語の3つの異なる言語で提示された音声刺激に対応していた。
提案したCNN-LSTMモデルを用いて, 試行期間3秒で77.2%の中央解読精度を得た。
さらに,本モデルで許容できるスパース量をマグニチュードプルーニングにより評価し,デコード精度の大幅な低下を伴わずに最大50%のスパースを許容できることを確認した。
関連論文リスト
- MP-SeizNet: A Multi-Path CNN Bi-LSTM Network for Seizure-Type
Classification Using EEG [2.1915057426589746]
てんかん患者の治療と管理には, 精垂型鑑別が不可欠である。
本稿では,MP-SeizNetを用いた新しいマルチパス・アセプション型ディープラーニング・ネットワークを提案する。
MP-SeizNetは、畳み込みニューラルネットワーク(CNN)と、注意機構を備えた双方向長短期記憶ニューラルネットワーク(Bi-LSTM)で構成されている。
論文 参考訳(メタデータ) (2022-11-09T01:07:20Z) - Decoding speech from non-invasive brain recordings [62.19441737665901]
本研究では,自然言語の自己教師付き表現を予測するために,コントラスト学習を訓練した単一エンドツーエンドアーキテクチャを提案する。
我々のモデルは、3sのMEG信号から、最大72.5%の音声区間を1,594個の異なる区間で識別することができる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [57.63552541911143]
調音機能は本質的に音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・視覚・超音波舌画像(UTI)データを利用した,クロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインハイブリッドTDNNとConformerベースのエンドツーエンドシステムよりも一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Bi-LSTM Scoring Based Similarity Measurement with Agglomerative
Hierarchical Clustering (AHC) for Speaker Diarization [0.0]
2つの話者間の典型的な会話は、声が重なり合う部分からなり、互いに中断したり、複数の文間での会話を止めたりする。
ダイアリゼーション技術の最近の進歩は、話者ダイアリゼーションシステムを即興化するニューラルネットワークベースのアプローチを活用している。
類似度行列に存在する要素を推定するための双方向長短期記憶ネットワークを提案する。
論文 参考訳(メタデータ) (2022-05-19T17:20:51Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - Attention-based Neural Beamforming Layers for Multi-channel Speech
Recognition [17.009051842682677]
畳み込みニューラルネットワークとビームフォーミングに注目した2D Conv-Attentionモジュールを提案する。
入力チャネル間の相関関係を明確にモデル化するために、自己およびクロスアテンションを適用します。
その結果,ベースラインニューラルビームフォーマに対する提案モデルによるwerの3.8%の相対的改善が認められた。
論文 参考訳(メタデータ) (2021-05-12T19:32:24Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。