論文の概要: Multi-class Decoding of Attended Speaker Direction Using Electroencephalogram and Audio Spatial Spectrum
- arxiv url: http://arxiv.org/abs/2411.06928v2
- Date: Thu, 09 Jan 2025 13:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:57:32.061777
- Title: Multi-class Decoding of Attended Speaker Direction Using Electroencephalogram and Audio Spatial Spectrum
- Title(参考訳): 脳波と音声空間スペクトルを用いた話者方向のマルチクラス復号
- Authors: Yuanming Zhang, Jing Lu, Fei Chen, Haoliang Du, Xia Gao, Zhibin Lin,
- Abstract要約: 聴取者の脳波(EEG)信号から出席者話者の指向性焦点を復号することは脳-コンピュータインターフェースの開発に不可欠である。
音声空間スペクトルと脳波の特徴を統合することにより、復号精度を効果的に向上させることができる。
提案したSp-EEG-Deformerモデルでは, 55.35%, 57.19%の14クラスのデコード精度を実現している。
- 参考スコア(独自算出の注目度): 13.036563238499026
- License:
- Abstract: Decoding the directional focus of an attended speaker from listeners' electroencephalogram (EEG) signals is essential for developing brain-computer interfaces to improve the quality of life for individuals with hearing impairment. Previous works have concentrated on binary directional focus decoding, i.e., determining whether the attended speaker is on the left or right side of the listener. However, a more precise decoding of the exact direction of the attended speaker is necessary for effective speech processing. Additionally, audio spatial information has not been effectively leveraged, resulting in suboptimal decoding results. In this paper, it is found that on the recently presented dataset with 14-class directional focus, models relying exclusively on EEG inputs exhibit significantly lower accuracy when decoding the directional focus in both leave-one-subject-out and leave-one-trial-out scenarios. By integrating audio spatial spectra with EEG features, the decoding accuracy can be effectively improved. The CNN, LSM-CNN, and Deformer models are employed to decode the directional focus from listeners' EEG signals and audio spatial spectra. The proposed Sp-EEG-Deformer model achieves notable 14-class decoding accuracies of 55.35% and 57.19% in leave-one-subject-out and leave-one-trial-out scenarios with a decision window of 1 second, respectively. Experiment results indicate increased decoding accuracy as the number of alternative directions reduces. These findings suggest the efficacy of our proposed dual modal directional focus decoding strategy.
- Abstract(参考訳): 聴取者の脳波(EEG)信号から参加者の指向性焦点をデコードすることは,聴力障害のある人の生活の質を向上させる脳-コンピュータインタフェースを開発する上で重要である。
従来の作業は、二方向焦点復号化(すなわち、出席した話者がリスナーの左側または右側にいるかどうかを判定する)に集中していた。
しかし,効果的な音声処理には,話者の正確な方向のより正確な復号化が必要である。
さらに、音声空間情報は有効に活用されておらず、その結果、準最適復号結果が得られた。
本稿では,最近発表された14クラス指向型データセットにおいて,脳波入力にのみ依存するモデルでは,左・左・左・左・左・左・左・左・左・左・左の両方のシナリオにおいて,方向焦点を復号する場合の精度が著しく低下することが判明した。
音声空間スペクトルと脳波の特徴を統合することにより、復号精度を効果的に向上させることができる。
CNN, LSM-CNN, Deformer モデルはリスナーの脳波信号と音声空間スペクトルから指向性焦点をデコードするために使用される。
提案したSp-EEG-Deformerモデルは、それぞれ1秒の判定窓を持つ残量1のサブジェクトアウトシナリオと残量1のトライアルアウトシナリオにおいて、55.35%と57.19%の14クラスの復号精度を達成している。
実験結果は、代替方向の数が減少するにつれて復号精度が向上することを示している。
これらの結果から,提案手法の有効性が示唆された。
関連論文リスト
- AADNet: Exploring EEG Spatiotemporal Information for Fast and Accurate Orientation and Timbre Detection of Auditory Attention Based on A Cue-Masked Paradigm [4.479495549911642]
脳波(EEG)からの聴覚的注意復号は、ユーザがノイズの多い環境でどのソースに出席しているかを推測することができる。
本研究は,実験前の情報漏洩を回避するために,キューメイドの聴覚注意パラダイムを提案する。
短時間の脳波信号から時間情報を活用するために,エンドツーエンドのディープラーニングモデルであるAADNetを提案した。
論文 参考訳(メタデータ) (2025-01-07T06:51:17Z) - Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。
まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。
次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:26:45Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [29.78480739360263]
本稿では,vEctor-quantized speCtrogram を用いた意味脳信号復号法を提案する。
BrainECHOは、1)音声スペクトログラムの自動符号化、2)ブレインオーディオ遅延空間アライメント、3)Whisperファインタニングによるセマンティックテキスト生成を行う。
BrainECHOは、2つの広く受け入れられたリソースで同じデータ分割設定の下で最先端のメソッドより優れている。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEG [17.96977778655143]
本稿では,DDPMとDiff-Eという条件付きオートエンコーダを用いた脳波信号のデコード手法を提案する。
その結果,Diff-Eは従来の機械学習手法やベースラインモデルと比較して脳波信号の復号精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-07-26T07:12:39Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Deep Neural Networks on EEG Signals to Predict Auditory Attention Score
Using Gramian Angular Difference Field [1.9899603776429056]
ある意味では、個人の聴覚的注意スコアは、聴覚的タスクにおいて、その人が持つことができる焦点を示す。
深層学習の最近の進歩と、神経活動を記録する非侵襲的技術は、脳波(EEG)などの技術とともに、個人の聴覚的注意スコアを予測することができるのか?
本稿では,14チャンネルの脳波信号を用いて脳の電気的活動に基づいて聴覚的注意度を推定する問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-24T17:58:14Z) - Improving auditory attention decoding performance of linear and
non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。
相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文 参考訳(メタデータ) (2020-04-02T09:56:06Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。