論文の概要: Single-word Auditory Attention Decoding Using Deep Learning Model
- arxiv url: http://arxiv.org/abs/2410.19793v1
- Date: Tue, 15 Oct 2024 21:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:19:23.228225
- Title: Single-word Auditory Attention Decoding Using Deep Learning Model
- Title(参考訳): 深層学習モデルを用いた単一単語聴覚注意復号法
- Authors: Nhan Duc Thanh Nguyen, Huy Phan, Kaare Mikkelsen, Preben Kidmose,
- Abstract要約: 聴覚刺激とそれに対応する脳反応を比較して聴覚注意を識別することは、聴覚注意復号法(AAD)として知られている。
本稿では,この課題に対処するため,EEGNetに基づくディープラーニングアプローチを提案する。
- 参考スコア(独自算出の注目度): 9.698931956476692
- License:
- Abstract: Identifying auditory attention by comparing auditory stimuli and corresponding brain responses, is known as auditory attention decoding (AAD). The majority of AAD algorithms utilize the so-called envelope entrainment mechanism, whereby auditory attention is identified by how the envelope of the auditory stream drives variation in the electroencephalography (EEG) signal. However, neural processing can also be decoded based on endogenous cognitive responses, in this case, neural responses evoked by attention to specific words in a speech stream. This approach is largely unexplored in the field of AAD but leads to a single-word auditory attention decoding problem in which an epoch of an EEG signal timed to a specific word is labeled as attended or unattended. This paper presents a deep learning approach, based on EEGNet, to address this challenge. We conducted a subject-independent evaluation on an event-based AAD dataset with three different paradigms: word category oddball, word category with competing speakers, and competing speech streams with targets. The results demonstrate that the adapted model is capable of exploiting cognitive-related spatiotemporal EEG features and achieving at least 58% accuracy on the most realistic competing paradigm for the unseen subjects. To our knowledge, this is the first study dealing with this problem.
- Abstract(参考訳): 聴覚刺激とそれに対応する脳反応を比較して聴覚注意を識別することは、聴覚注意復号法(AAD)として知られている。
AADアルゴリズムの大多数は、脳波(EEG)信号において、聴覚ストリームのエンベロープがどのように変化するかによって聴覚注意を識別するエンベロープエントレメント機構を利用している。
しかし、ニューラル処理は内因性認知反応に基づいてデコードすることもできる。
このアプローチは、AADの分野ではほとんど探索されていないが、特定の単語にタイムトされた脳波信号のエポックを、出席者または未参加としてラベル付けする単一単語の聴覚注意復号問題につながる。
本稿では,この課題に対処するため,EEGNetに基づくディープラーニングアプローチを提案する。
我々は,3つのパラダイムを持つイベントベースAADデータセットに対して,単語カテゴリ奇語,競合話者による単語カテゴリ,ターゲットによる競合音声ストリームの3つのパラメータで主観的非依存評価を行った。
その結果, 適応モデルは認知関連時空間脳波の特徴を活用でき, 被験者にとって最も現実的な競合パラダイムに対して少なくとも58%の精度を達成できることがわかった。
私たちの知る限りでは、この問題に対処する最初の研究である。
関連論文リスト
- A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。
この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-24T03:13:53Z) - NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Relate auditory speech to EEG by shallow-deep attention-based network [10.002888298492831]
本稿では,脳波信号を誘発する正しい聴覚刺激を分類するために,SDANet(Shallow-Deep Attention-based Network)を提案する。
アテンションベースの相関モジュール(ACM)を用いて、グローバルな側面から聴覚音声と脳波の関連を見出す。
モデルの堅牢性を高めるために、さまざまなトレーニング戦略とデータ拡張が使用される。
論文 参考訳(メタデータ) (2023-03-20T06:34:22Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Multilingual Alzheimer's Dementia Recognition through Spontaneous
Speech: a Signal Processing Grand Challenge [18.684024762601215]
この信号処理グランドチャレンジ(SPGC)は、社会的・医療的関連性の難しい自動予測問題をターゲットにしている。
チャレンジは、ある言語(英語)における音声に基づいて構築された予測モデルが、他の言語(ギリシャ語)に一般化する程度を評価するように設計されている。
論文 参考訳(メタデータ) (2023-01-13T14:09:13Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Deep Neural Networks on EEG Signals to Predict Auditory Attention Score
Using Gramian Angular Difference Field [1.9899603776429056]
ある意味では、個人の聴覚的注意スコアは、聴覚的タスクにおいて、その人が持つことができる焦点を示す。
深層学習の最近の進歩と、神経活動を記録する非侵襲的技術は、脳波(EEG)などの技術とともに、個人の聴覚的注意スコアを予測することができるのか?
本稿では,14チャンネルの脳波信号を用いて脳の電気的活動に基づいて聴覚的注意度を推定する問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-24T17:58:14Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Deep Recurrent Encoder: A scalable end-to-end network to model brain
signals [122.1055193683784]
複数の被験者の脳応答を一度に予測するために訓練されたエンドツーエンドのディープラーニングアーキテクチャを提案する。
1時間の読解作業で得られた大脳磁図(meg)記録を用いて,このアプローチを検証した。
論文 参考訳(メタデータ) (2021-03-03T11:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。