論文の概要: NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention
- arxiv url: http://arxiv.org/abs/2409.02489v2
- Date: Mon, 16 Sep 2024 06:35:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 22:38:20.257132
- Title: NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention
- Title(参考訳): NeuroSpex:クロスモーダルアテンションを用いたニューロガイド型話者抽出
- Authors: Dashanka De Silva, Siqi Cai, Saurav Pahuja, Tanja Schultz, Haizhou Li,
- Abstract要約: 本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
- 参考スコア(独自算出の注目度): 47.8479647938849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the study of auditory attention, it has been revealed that there exists a robust correlation between attended speech and elicited neural responses, measurable through electroencephalography (EEG). Therefore, it is possible to use the attention information available within EEG signals to guide the extraction of the target speaker in a cocktail party computationally. In this paper, we present a neuro-guided speaker extraction model, i.e. NeuroSpex, using the EEG response of the listener as the sole auxiliary reference cue to extract attended speech from monaural speech mixtures. We propose a novel EEG signal encoder that captures the attention information. Additionally, we propose a cross-attention (CA) mechanism to enhance the speech feature representations, generating a speaker extraction mask. Experimental results on a publicly available dataset demonstrate that our proposed model outperforms two baseline models across various evaluation metrics.
- Abstract(参考訳): 聴覚的注意研究において,脳波(EEG)で測定可能な,参加者の音声と誘発された神経反応との間には強い相関関係があることが判明した。
そのため、脳波信号内で利用可能な注意情報を用いて、カクテルパーティーにおける対象話者の抽出を計算的に導くことができる。
本稿では,脳神経誘導型話者抽出モデル,すなわちNeuroSpexについて,聴取者の脳波応答を単独の補助的基準キューとして用いて,単音混合音声から参加者音声を抽出する。
注目情報をキャプチャする新しい脳波信号エンコーダを提案する。
さらに、話者抽出マスクを生成することで、音声特徴表現を強化するクロスアテンション(CA)機構を提案する。
公開データセットを用いた実験結果から,提案モデルが各種評価指標において2つのベースラインモデルより優れていることが示された。
関連論文リスト
- Feature Estimation of Global Language Processing in EEG Using Attention Maps [5.173821279121835]
本研究は,脳波の特徴推定に新たなアプローチを導入し,深層学習モデルの重みを利用してその関連を探索する。
視覚変換器とEEGNetから生成したアテンションマップは,従来の研究結果と一致した特徴を効果的に同定できることを実証する。
ViTsを用いたMel-Spectrogramの適用により、時間および周波数関連脳波特性の分解能が向上する。
論文 参考訳(メタデータ) (2024-09-27T22:52:31Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - Relate auditory speech to EEG by shallow-deep attention-based network [10.002888298492831]
本稿では,脳波信号を誘発する正しい聴覚刺激を分類するために,SDANet(Shallow-Deep Attention-based Network)を提案する。
アテンションベースの相関モジュール(ACM)を用いて、グローバルな側面から聴覚音声と脳波の関連を見出す。
モデルの堅牢性を高めるために、さまざまなトレーニング戦略とデータ拡張が使用される。
論文 参考訳(メタデータ) (2023-03-20T06:34:22Z) - Towards Relation Extraction From Speech [56.36416922396724]
本稿では,新たな聴取情報抽出タスク,すなわち音声関係抽出を提案する。
本研究では,音声合成システムによる音声関係抽出のための訓練データセットを構築し,英語母語話者によるクラウドソーシングによるテストデータセットを構築した。
我々は,音声関係抽出における課題を識別するための包括的実験を行い,今後の探索に光を当てる可能性がある。
論文 参考訳(メタデータ) (2022-10-17T05:53:49Z) - DriPP: Driven Point Processes to Model Stimuli Induced Patterns in M/EEG
Signals [62.997667081978825]
我々はDriPPと呼ばれる新しい統計点過程モデルを開発する。
我々は、このモデルのパラメータを推定するために、高速で原理化された予測最大化(EM)アルゴリズムを導出する。
標準MEGデータセットの結果から,我々の手法が事象関連ニューラルレスポンスを明らかにすることが示された。
論文 参考訳(メタデータ) (2021-12-08T13:07:21Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - Correlation based Multi-phasal models for improved imagined speech EEG
recognition [22.196642357767338]
本研究の目的は,特定の音声単位に対応する音声の動きを,話し,想像,実行しながら記録された多相脳波データに含まれる並列情報から利益を得ることである。
ニューラルネットワークを用いた二相共通表現学習モジュールは、解析フェーズと支援フェーズ間の相関をモデル化する。
提案手法は復号化時の多相データの非可利用性をさらに扱う。
論文 参考訳(メタデータ) (2020-11-04T09:39:53Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。