Fugu-MT 論文翻訳(概要): Electroencephalogram-based Multi-class Decoding of Attended Speakers' Direction with Audio Spatial Spectrum

論文の概要: Electroencephalogram-based Multi-class Decoding of Attended Speakers' Direction with Audio Spatial Spectrum

arxiv url: http://arxiv.org/abs/2411.06928v1
Date: Mon, 11 Nov 2024 12:32:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.459214
Title: Electroencephalogram-based Multi-class Decoding of Attended Speakers' Direction with Audio Spatial Spectrum
Title（参考訳）: 脳波を用いた音声空間スペクトルを用いた話者方向のマルチクラス復号
Authors: Yuanming Zhang, Jing Lu, Zhibin Lin, Fei Chen, Haoliang Du, Xia Gao,
Abstract要約: 聴取者の脳波(EEG)信号から出席者話者の指向性焦点を復号することは脳-コンピュータインターフェースの開発に不可欠である。我々は、CNN、SM-CNN、EEG-Deformerモデルを用いて、聴取者の脳波信号から指向性焦点を補助的な空間スペクトルで復号する。提案したSp-Aux-Deformerモデルでは、57.48%と61.83%の15クラスのデコード精度を、Left-one-subject-outおよびLeft-one-trial-outシナリオで達成している。
参考スコア（独自算出の注目度）: 13.036563238499026
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Decoding the directional focus of an attended speaker from listeners' electroencephalogram (EEG) signals is essential for developing brain-computer interfaces to improve the quality of life for individuals with hearing impairment. Previous works have concentrated on binary directional focus decoding, i.e., determining whether the attended speaker is on the left or right side of the listener. However, a more precise decoding of the exact direction of the attended speaker is necessary for effective speech processing. Additionally, audio spatial information has not been effectively leveraged, resulting in suboptimal decoding results. In this paper, we observe that, on our recently presented dataset with 15-class directional focus, models relying exclusively on EEG inputs exhibits significantly lower accuracy when decoding the directional focus in both leave-one-subject-out and leave-one-trial-out scenarios. By integrating audio spatial spectra with EEG features, the decoding accuracy can be effectively improved. We employ the CNN, LSM-CNN, and EEG-Deformer models to decode the directional focus from listeners' EEG signals with the auxiliary audio spatial spectra. The proposed Sp-Aux-Deformer model achieves notable 15-class decoding accuracies of 57.48% and 61.83% in leave-one-subject-out and leave-one-trial-out scenarios, respectively.
Abstract（参考訳）: 聴取者の脳波(EEG)信号から参加者の指向性焦点をデコードすることは,聴力障害のある人の生活の質を向上させる脳-コンピュータインタフェースを開発する上で重要である。従来の作業は、二方向焦点復号化(すなわち、出席した話者がリスナーの左側または右側にいるかどうかを判定する)に集中していた。しかし,効果的な音声処理には,話者の正確な方向のより正確な復号化が必要である。さらに、音声空間情報は有効に活用されておらず、その結果、準最適復号結果が得られた。本稿では,最近紹介した15クラス指向型データセットにおいて,脳波入力のみに依存したモデルでは,入所対象と退院対象の両方のシナリオにおいて,指向性重視を復号する場合の精度が著しく低下することが観察された。音声空間スペクトルと脳波の特徴を統合することにより、復号精度を効果的に向上させることができる。我々は、CNN、SM-CNN、EEG-Deformerモデルを用いて、聴取者の脳波信号から指向性焦点を補助的な空間スペクトルで復号する。提案したSp-Aux-Deformerモデルでは、それぞれ57.48%と61.83%の15クラスのデコード精度を実現している。

関連論文リスト

SC-SOT: Conditioning the Decoder on Diarized Speaker Information for End-to-End Overlapped Speech Recognition [11.157709125869593]
E2EマルチストーカーASRのためのSC-SOT(Serialized Output Training)を提案する。 SC-SOTは、話者情報にデコーダを明示的に条件付け、「誰がいつ話したか」に関する詳細な情報を提供する。
論文参考訳（メタデータ） (2025-06-15T00:37:27Z)
AADNet: Exploring EEG Spatiotemporal Information for Fast and Accurate Orientation and Timbre Detection of Auditory Attention Based on A Cue-Masked Paradigm [4.479495549911642]
脳波(EEG)からの聴覚的注意復号は、ユーザがノイズの多い環境でどのソースに出席しているかを推測することができる。本研究は,実験前の情報漏洩を回避するために,キューメイドの聴覚注意パラダイムを提案する。短時間の脳波信号から時間情報を活用するために,エンドツーエンドのディープラーニングモデルであるAADNetを提案した。
論文参考訳（メタデータ） (2025-01-07T06:51:17Z)
Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文参考訳（メタデータ） (2024-12-26T00:26:45Z)
BrainECHO: Semantic Brain Signal Decoding through Vector-Quantized Spectrogram Reconstruction for Whisper-Enhanced Text Generation [29.78480739360263]
本稿では,vEctor-quantized speCtrogram を用いた意味脳信号復号法を提案する。 BrainECHOは、1)音声スペクトログラムの自動符号化、2)ブレインオーディオ遅延空間アライメント、3)Whisperファインタニングによるセマンティックテキスト生成を行う。 BrainECHOは、2つの広く受け入れられたリソースで同じデータ分割設定の下で最先端のメソッドより優れている。
論文参考訳（メタデータ） (2024-10-19T04:29:03Z)
Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。 TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文参考訳（メタデータ） (2024-10-15T03:58:13Z)
NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文参考訳（メタデータ） (2024-09-04T07:33:01Z)
LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism [45.90677498529653]
選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。提案するネットワークLocSelectは平均絶対誤差(MAE)が3.55で精度(ACC)が87.40%である。
論文参考訳（メタデータ） (2023-10-16T15:19:05Z)
Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEG [17.96977778655143]
本稿では,DDPMとDiff-Eという条件付きオートエンコーダを用いた脳波信号のデコード手法を提案する。その結果,Diff-Eは従来の機械学習手法やベースラインモデルと比較して脳波信号の復号精度を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-07-26T07:12:39Z)
Corticomorphic Hybrid CNN-SNN Architecture for EEG-based Low-footprint Low-latency Auditory Attention Detection [8.549433398954738]
マルチスピーカー「カクテルパーティー」のシナリオでは、リスナーは興味のある話者に選択的に出席することができる。ニューラルネットワーク(ANN)を用いた脳波による聴覚的注意検出の最近の動向は,エッジコンピューティングプラットフォームでは実用的ではない。聴覚野に触発されたハイブリッド畳み込みニューラルネットワーク(CNN-SNN)アーキテクチャを提案する。
論文参考訳（メタデータ） (2023-07-13T20:33:39Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文参考訳（メタデータ） (2022-03-19T08:47:18Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
Deep Neural Networks on EEG Signals to Predict Auditory Attention Score Using Gramian Angular Difference Field [1.9899603776429056]
ある意味では、個人の聴覚的注意スコアは、聴覚的タスクにおいて、その人が持つことができる焦点を示す。深層学習の最近の進歩と、神経活動を記録する非侵襲的技術は、脳波(EEG)などの技術とともに、個人の聴覚的注意スコアを予測することができるのか? 本稿では,14チャンネルの脳波信号を用いて脳の電気的活動に基づいて聴覚的注意度を推定する問題に焦点をあてる。
論文参考訳（メタデータ） (2021-10-24T17:58:14Z)
Extracting the Locus of Attention at a Cocktail Party from Single-Trial EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文参考訳（メタデータ） (2021-02-08T01:06:48Z)
Improving auditory attention decoding performance of linear and non-linear methods using state-space model [21.40315235087551]
脳波検査の最近の進歩は、単一の脳波記録からターゲット話者を特定することが可能であることを示している。 AAD法は、線形最小二乗関数または非線形ニューラルネットワークに基づいて、脳波記録から出席した音声エンベロープを再構成する。相関窓の小さい相関係数を用いた状態空間モデルについて検討し,復号性能の向上を図る。
論文参考訳（メタデータ） (2020-04-02T09:56:06Z)
Unsupervised Speaker Adaptation using Attention-based Speaker Memory for End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文参考訳（メタデータ） (2020-02-14T18:31:31Z)
Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文参考訳（メタデータ） (2020-01-25T00:24:45Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。