論文の概要: Electroencephalogram-based Multi-class Decoding of Attended Speakers' Direction with Audio Spatial Spectrum
- arxiv url: http://arxiv.org/abs/2411.06928v1
- Date: Mon, 11 Nov 2024 12:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:40.726446
- Title: Electroencephalogram-based Multi-class Decoding of Attended Speakers' Direction with Audio Spatial Spectrum
- Title(参考訳): 脳波を用いた音声空間スペクトルを用いた話者方向のマルチクラス復号
- Authors: Yuanming Zhang, Jing Lu, Zhibin Lin, Fei Chen, Haoliang Du, Xia Gao,
- Abstract要約: 聴取者の脳波(EEG)信号から出席者話者の指向性焦点を復号することは脳-コンピュータインターフェースの開発に不可欠である。
我々は、CNN、SM-CNN、EEG-Deformerモデルを用いて、聴取者の脳波信号から指向性焦点を補助的な空間スペクトルで復号する。
提案したSp-Aux-Deformerモデルでは、57.48%と61.83%の15クラスのデコード精度を、Left-one-subject-outおよびLeft-one-trial-outシナリオで達成している。
- 参考スコア(独自算出の注目度): 13.036563238499026
- License:
- Abstract: Decoding the directional focus of an attended speaker from listeners' electroencephalogram (EEG) signals is essential for developing brain-computer interfaces to improve the quality of life for individuals with hearing impairment. Previous works have concentrated on binary directional focus decoding, i.e., determining whether the attended speaker is on the left or right side of the listener. However, a more precise decoding of the exact direction of the attended speaker is necessary for effective speech processing. Additionally, audio spatial information has not been effectively leveraged, resulting in suboptimal decoding results. In this paper, we observe that, on our recently presented dataset with 15-class directional focus, models relying exclusively on EEG inputs exhibits significantly lower accuracy when decoding the directional focus in both leave-one-subject-out and leave-one-trial-out scenarios. By integrating audio spatial spectra with EEG features, the decoding accuracy can be effectively improved. We employ the CNN, LSM-CNN, and EEG-Deformer models to decode the directional focus from listeners' EEG signals with the auxiliary audio spatial spectra. The proposed Sp-Aux-Deformer model achieves notable 15-class decoding accuracies of 57.48% and 61.83% in leave-one-subject-out and leave-one-trial-out scenarios, respectively.
- Abstract(参考訳): 聴取者の脳波(EEG)信号から参加者の指向性焦点をデコードすることは,聴力障害のある人の生活の質を向上させる脳-コンピュータインタフェースを開発する上で重要である。
従来の作業は、二方向焦点復号化(すなわち、出席した話者がリスナーの左側または右側にいるかどうかを判定する)に集中していた。
しかし,効果的な音声処理には,話者の正確な方向のより正確な復号化が必要である。
さらに、音声空間情報は有効に活用されておらず、その結果、準最適復号結果が得られた。
本稿では,最近紹介した15クラス指向型データセットにおいて,脳波入力のみに依存したモデルでは,入所対象と退院対象の両方のシナリオにおいて,指向性重視を復号する場合の精度が著しく低下することが観察された。
音声空間スペクトルと脳波の特徴を統合することにより、復号精度を効果的に向上させることができる。
我々は、CNN、SM-CNN、EEG-Deformerモデルを用いて、聴取者の脳波信号から指向性焦点を補助的な空間スペクトルで復号する。
提案したSp-Aux-Deformerモデルでは、それぞれ57.48%と61.83%の15クラスのデコード精度を実現している。
関連論文リスト
- AADNet: Exploring EEG Spatiotemporal Information for Fast and Accurate Orientation and Timbre Detection of Auditory Attention Based on A Cue-Masked Paradigm [4.479495549911642]
脳波(EEG)からの聴覚的注意復号は、ユーザがノイズの多い環境でどのソースに出席しているかを推測することができる。
本研究は,実験前の情報漏洩を回避するために,キューメイドの聴覚注意パラダイムを提案する。
短時間の脳波信号から時間情報を活用するために,エンドツーエンドのディープラーニングモデルであるAADNetを提案した。
論文 参考訳(メタデータ) (2025-01-07T06:51:17Z) - Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。
まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。
次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:26:45Z) - BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [29.78480739360263]
本稿では,vEctor-quantized speCtrogram を用いた意味脳信号復号法を提案する。
BrainECHOは、1)音声スペクトログラムの自動符号化、2)ブレインオーディオ遅延空間アライメント、3)Whisperファインタニングによるセマンティックテキスト生成を行う。
BrainECHOは、2つの広く受け入れられたリソースで同じデータ分割設定の下で最先端のメソッドより優れている。
論文 参考訳(メタデータ) (2024-10-19T04:29:03Z) - Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEG [17.96977778655143]
本稿では,DDPMとDiff-Eという条件付きオートエンコーダを用いた脳波信号のデコード手法を提案する。
その結果,Diff-Eは従来の機械学習手法やベースラインモデルと比較して脳波信号の復号精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-07-26T07:12:39Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Deep Neural Networks on EEG Signals to Predict Auditory Attention Score
Using Gramian Angular Difference Field [1.9899603776429056]
ある意味では、個人の聴覚的注意スコアは、聴覚的タスクにおいて、その人が持つことができる焦点を示す。
深層学習の最近の進歩と、神経活動を記録する非侵襲的技術は、脳波(EEG)などの技術とともに、個人の聴覚的注意スコアを予測することができるのか?
本稿では,14チャンネルの脳波信号を用いて脳の電気的活動に基づいて聴覚的注意度を推定する問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-24T17:58:14Z) - Improving auditory attention decoding performance of linear and
non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。
AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。
相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文 参考訳(メタデータ) (2020-04-02T09:56:06Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。