論文の概要: Towards auditory attention decoding with noise-tagging: A pilot study
- arxiv url: http://arxiv.org/abs/2403.15523v1
- Date: Fri, 22 Mar 2024 13:35:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 22:12:28.193583
- Title: Towards auditory attention decoding with noise-tagging: A pilot study
- Title(参考訳): ノイズタグ付き聴覚注意復号化に向けて:パイロット研究
- Authors: H. A. Scheppink, S. Ahmadi, P. Desain, M. Tangermann, J. Thielen,
- Abstract要約: AAD (Auditory attention decoding) は、参加話者の脳活動から候補話者を抽出することを目的としている。
このパイロット研究は、ノイズタギング刺激プロトコルを用いて、AADへの第一歩を踏み出す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auditory attention decoding (AAD) aims to extract from brain activity the attended speaker amidst candidate speakers, offering promising applications for neuro-steered hearing devices and brain-computer interfacing. This pilot study makes a first step towards AAD using the noise-tagging stimulus protocol, which evokes reliable code-modulated evoked potentials, but is minimally explored in the auditory modality. Participants were sequentially presented with two Dutch speech stimuli that were amplitude modulated with a unique binary pseudo-random noise-code, effectively tagging these with additional decodable information. We compared the decoding of unmodulated audio against audio modulated with various modulation depths, and a conventional AAD method against a standard method to decode noise-codes. Our pilot study revealed higher performances for the conventional method with 70 to 100 percent modulation depths compared to unmodulated audio. The noise-code decoder did not further improve these results. These fundamental insights highlight the potential of integrating noise-codes in speech to enhance auditory speaker detection when multiple speakers are presented simultaneously.
- Abstract(参考訳): AAD(Auditory attention decoding)は、脳活動から参加者の話者の脳活動を抽出することを目的としており、ニューロステアリング補聴器や脳とコンピュータのインターフェイスに有望な応用を提供する。
このパイロット研究は、信頼あるコード変調誘発電位を誘発するノイズタギング刺激プロトコルを用いて、AADに向けての第一歩を踏み出すが、聴覚モードでは最小限に探索される。
参加者は2つのオランダ語音声刺激を連続的に提示し、ユニークな擬似ランダムノイズコードで振幅を変調し、これらに付加可能な情報で効果的にタグ付けした。
我々は、変調されていない音声の復号化を、様々な変調深度で変調されたオーディオと比較し、従来のAAD法と比較した。
実験の結果, 従来手法では変調深度が70~100%であった場合, 非変調オーディオに比べて高い性能を示した。
ノイズコードデコーダはこれらの結果をさらに改善しなかった。
これらの基本的な洞察は、複数の話者が同時に提示されたときの聴覚話者検出を強化するために、音声にノイズコードを統合する可能性を強調する。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI [20.432212333539628]
本稿では,機能的磁気共鳴画像(fMRI)データに基づく,より粗い音響再構成手法を提案する。
我々は,3つの公開fMRIデータセットであるBrain2Sound,Brain2Music,Brain2Speechについて検証を行った。
復号化時に意味的プロンプトを用いることで,意味的特徴が最適でない場合に,再構成音声の品質を向上させる。
論文 参考訳(メタデータ) (2024-05-29T03:16:14Z) - Encoder-decoder multimodal speaker change detection [15.290910973040152]
話者変化検出(SCD)はいくつかのアプリケーションに必須である。
音声に加えてテキストモダリティを利用するマルチモーダルSCDモデルでは,性能が向上した。
本研究は、モダリティ融合のための新しいメカニズムとエンコーダ・デコーダアーキテクチャの採用という、2つの主要な提案に基づいている。
論文 参考訳(メタデータ) (2023-06-01T13:55:23Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Revisiting joint decoding based multi-talker speech recognition with DNN
acoustic model [34.061441900912136]
このようなスキームは準最適であり、すべての話者を共同で復号する原理的解法を提案する。
本研究では,全ての話者の関節後部状態を予測するために音響モデルを改良し,話者への音声信号の一部の帰属に関する不確実性をネットワークが表現できるようにする。
論文 参考訳(メタデータ) (2021-10-31T09:28:04Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Disentangled dimensionality reduction for noise-robust speaker
diarisation [30.383712356205084]
話者埋め込みはダイアリゼーションシステムの性能において重要な役割を果たす。
話者埋め込みは、しばしばノイズや残響などの急激な情報を捉え、性能に悪影響を及ぼす。
本稿では,話者埋め込みから急激な情報を解き放つことのできる新しい次元還元フレームワークを提案する。
また,背景雑音から話者コードが学習されるのを防止するために,音声・非音声指標も提案する。
論文 参考訳(メタデータ) (2021-10-07T12:19:09Z) - Personalized Keyphrase Detection using Speaker and Environment
Information [24.766475943042202]
単語からなるフレーズを大きな語彙から正確に検出するために、簡単にカスタマイズできるストリーミングキーフレーズ検出システムを紹介します。
本システムは,エンドツーエンドで訓練された自動音声認識(ASR)モデルと,テキスト非依存話者検証モデルを用いて実装される。
論文 参考訳(メタデータ) (2021-04-28T18:50:19Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。