Fugu-MT 論文翻訳(概要): Extracting the Locus of Attention at a Cocktail Party from Single-Trial EEG using a Joint CNN-LSTM Model

論文の概要: Extracting the Locus of Attention at a Cocktail Party from Single-Trial EEG using a Joint CNN-LSTM Model

arxiv url: http://arxiv.org/abs/2102.03957v1
Date: Mon, 8 Feb 2021 01:06:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-09 15:55:13.157675
Title: Extracting the Locus of Attention at a Cocktail Party from Single-Trial EEG using a Joint CNN-LSTM Model
Title（参考訳）: 共同CNN-LSTMモデルを用いた単一軌道脳波からのコックテールパーティーにおける注意点抽出
Authors: Ivine Kuruvila, Jan Muncke, Eghart Fischer, Ulrich Hoppe
Abstract要約: 人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
参考スコア（独自算出の注目度）: 0.1529342790344802
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human brain performs remarkably well in segregating a particular speaker from interfering speakers in a multi-speaker scenario. It has been recently shown that we can quantitatively evaluate the segregation capability by modelling the relationship between the speech signals present in an auditory scene and the cortical signals of the listener measured using electroencephalography (EEG). This has opened up avenues to integrate neuro-feedback into hearing aids whereby the device can infer user's attention and enhance the attended speaker. Commonly used algorithms to infer the auditory attention are based on linear systems theory where the speech cues such as envelopes are mapped on to the EEG signals. Here, we present a joint convolutional neural network (CNN) - long short-term memory (LSTM) model to infer the auditory attention. Our joint CNN-LSTM model takes the EEG signals and the spectrogram of the multiple speakers as inputs and classifies the attention to one of the speakers. We evaluated the reliability of our neural network using three different datasets comprising of 61 subjects where, each subject undertook a dual-speaker experiment. The three datasets analysed corresponded to speech stimuli presented in three different languages namely German, Danish and Dutch. Using the proposed joint CNN-LSTM model, we obtained a median decoding accuracy of 77.2% at a trial duration of three seconds. Furthermore, we evaluated the amount of sparsity that our model can tolerate by means of magnitude pruning and found that the model can tolerate up to 50% sparsity without substantial loss of decoding accuracy.
Abstract（参考訳）: 人間の脳は、マルチスピーカーシナリオにおいて、特定のスピーカーを干渉するスピーカーから分離するのに非常によく機能します。近年,聴覚場面に存在する音声信号と脳波(eeg)を用いて測定した聴者の皮質信号との関係をモデル化することにより,分離能力の定量的評価が可能となった。これにより、ニューロフィードバックを補聴器に統合し、ユーザーの注意を推測し、出席する話者を強化することができる。聴覚注意を推測するために一般的に用いられるアルゴリズムは、脳波信号にエンベロープなどの音声手がかりをマッピングする線形システム理論に基づいている。本稿では,聴覚注意度を推定する共畳畳畳み込みニューラルネットワーク (CNN) - 長期短期記憶 (LSTM) モデルを提案する。私達の共同CNN-LSTMモデルは入力として複数のスピーカーのEEG信号そして分光計を取り、スピーカーの1つへの注意を分類します。 61名の被験者からなる3つのデータセットを用いてニューラルネットワークの信頼性を評価し,各被験者がデュアルスピーカ実験を行った。分析された3つのデータセットは、ドイツ語、デンマーク語、オランダ語の3つの異なる言語で提示された音声刺激に対応していた。提案したCNN-LSTMモデルを用いて, 試行期間3秒で77.2%の中央解読精度を得た。さらに,本モデルで許容できるスパース量をマグニチュードプルーニングにより評価し,デコード精度の大幅な低下を伴わずに最大50%のスパースを許容できることを確認した。

関連論文リスト

CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [53.539020807256904]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。トークン化方式は、チャネルごとのパッチで脳波信号を表現します。本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文参考訳（メタデータ） (2025-01-18T21:44:38Z)
Bridging Auditory Perception and Language Comprehension through MEG-Driven Encoding Models [0.12289361708127873]
脳磁図(MEG)データを用いて、音声言語刺激に対する脳反応を解析する。我々は,音声-MEGエンコーダとテキスト-MEGエンコーダの2つの異なる符号化モデルを開発した。どちらのモデルも神経活動の予測に成功し、推定されたMEG信号と観測されたMEG信号の間に有意な相関を示す。
論文参考訳（メタデータ） (2024-12-22T19:41:54Z)
NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文参考訳（メタデータ） (2024-09-04T07:33:01Z)
Corticomorphic Hybrid CNN-SNN Architecture for EEG-based Low-footprint Low-latency Auditory Attention Detection [8.549433398954738]
マルチスピーカー「カクテルパーティー」のシナリオでは、リスナーは興味のある話者に選択的に出席することができる。ニューラルネットワーク(ANN)を用いた脳波による聴覚的注意検出の最近の動向は,エッジコンピューティングプラットフォームでは実用的ではない。聴覚野に触発されたハイブリッド畳み込みニューラルネットワーク(CNN-SNN)アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-07-13T20:33:39Z)
BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文参考訳（メタデータ） (2023-05-17T06:40:31Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Audio-visual multi-channel speech separation, dereverberation and recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。 LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-04-05T04:16:03Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Acoustic To Articulatory Speech Inversion Using Multi-Resolution Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。実験は、0.675と接地軌道変数の相関を達成した。
論文参考訳（メタデータ） (2022-03-11T07:27:42Z)
Correlation based Multi-phasal models for improved imagined speech EEG recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文参考訳（メタデータ） (2020-11-04T09:39:53Z)
AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文参考訳（メタデータ） (2020-05-07T02:53:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。