論文の概要: TFGA-Net: Temporal-Frequency Graph Attention Network for Brain-Controlled Speaker Extraction
- arxiv url: http://arxiv.org/abs/2510.12275v1
- Date: Tue, 14 Oct 2025 08:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.251372
- Title: TFGA-Net: Temporal-Frequency Graph Attention Network for Brain-Controlled Speaker Extraction
- Title(参考訳): TFGA-Net:脳制御型話者抽出のための時間周波数グラフ注意ネットワーク
- Authors: Youhao Si, Yuan Liao, Qiushi Han, Yuhang Yang, Rui Dai, Liya Huang,
- Abstract要約: 脳波(EEG)信号に基づくAADは、脳波駆動型ターゲット話者抽出の可能性を提供する。
本稿では,脳波を用いた話者抽出モデルを提案し,脳波を聴取者から記録した脳波を用いて対象音声を抽出する。
我々のTFGA-Netモデルは、ある客観的評価指標において最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 7.795259968001983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of auditory attention decoding (AAD) based on electroencephalography (EEG) signals offers the possibility EEG-driven target speaker extraction. However, how to effectively utilize the target-speaker common information between EEG and speech remains an unresolved problem. In this paper, we propose a model for brain-controlled speaker extraction, which utilizes the EEG recorded from the listener to extract the target speech. In order to effectively extract information from EEG signals, we derive multi-scale time--frequency features and further incorporate cortical topological structures that are selectively engaged during the task. Moreover, to effectively exploit the non-Euclidean structure of EEG signals and capture their global features, the graph convolutional networks and self-attention mechanism are used in the EEG encoder. In addition, to make full use of the fused EEG and speech feature and preserve global context and capture speech rhythm and prosody, we introduce MossFormer2 which combines MossFormer and RNN-Free Recurrent as separator. Experimental results on both the public Cocktail Party and KUL dataset in this paper show that our TFGA-Net model significantly outper-forms the state-of-the-art method in certain objective evaluation metrics. The source code is available at: https://github.com/LaoDa-X/TFGA-NET.
- Abstract(参考訳): 脳波(EEG)信号に基づく聴覚注意復号法(AAD)の急速な発展は、脳波駆動型ターゲット話者抽出の可能性をもたらす。
しかし、脳波と音声の目標話者共通情報を効果的に活用する方法は未解決の問題である。
本稿では,脳が制御する話者抽出モデルを提案する。このモデルでは,聴取者から記録された脳波を用いてターゲット音声を抽出する。
脳波信号から情報を効果的に抽出するために,マルチスケールの時間周波数特徴を導出し,タスク中に選択的に関与する皮質トポロジ構造を組み込む。
さらに、脳波信号の非ユークリッド構造を効果的に活用し、そのグローバルな特徴を捉えるために、グラフ畳み込みネットワークと自己保持機構が脳波エンコーダで使用される。
さらに、融合した脳波と音声特徴をフル活用し、グローバルな文脈を維持し、音声リズムと韻律を捉えるために、MossFormerとRNN-Free Recurrentをセパレータとして組み合わせたMossFormer2を導入する。
本稿では,コクテールパーティとKULデータセットを用いた実験結果から,TFGA-Netモデルが特定の客観的評価指標において,最先端手法を著しく上回っていることを示す。
ソースコードは、https://github.com/LaoDa-X/TFGA-NETで入手できる。
関連論文リスト
- WaveMind: Towards a Conversational EEG Foundation Model Aligned to Textual and Visual Modalities [55.00677513249723]
脳波信号は認知過程と固有の神経状態の両方を同時に符号化する。
我々は、EEG信号とその対応するモダリティを統一意味空間にマッピングし、一般化された解釈を実現する。
結果として得られたモデルは、柔軟でオープンな会話をサポートしながら、堅牢な分類精度を示す。
論文 参考訳(メタデータ) (2025-09-26T06:21:51Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - NeuroSpex: Neuro-Guided Speaker Extraction with Cross-Modal Attention [47.8479647938849]
本稿では,聴取者の脳波応答を唯一の補助的基準キューとして用いた神経誘導型話者抽出モデルであるNeuroSpexを提案する。
我々は,注目情報を捕捉する新しい脳波信号エンコーダを提案し,また,音声特徴表現を強化するためのクロスアテンション(CA)機構を提案する。
論文 参考訳(メタデータ) (2024-09-04T07:33:01Z) - Towards Linguistic Neural Representation Learning and Sentence Retrieval from Electroencephalogram Recordings [27.418738450536047]
脳波信号を文に変換するための2ステップパイプラインを提案する。
まず,自然読解中に記録された脳波データから単語レベルの意味情報を学習できることを確認する。
脳波エンコーダからの予測に基づいて文章を検索するために,学習不要な検索手法を用いる。
論文 参考訳(メタデータ) (2024-08-08T03:40:25Z) - Toward Fully-End-to-End Listened Speech Decoding from EEG Signals [29.548052495254257]
脳波信号からの完全エンドツーエンド音声デコーディングのための新しいフレームワークであるFESDEを提案する。
提案手法は,脳波モジュールと音声モジュール,およびコネクタから構成される。
音声符号化のモデル特性を明らかにするために, きめ細かい音素解析を行った。
論文 参考訳(メタデータ) (2024-06-12T21:08:12Z) - DGSD: Dynamical Graph Self-Distillation for EEG-Based Auditory Spatial
Attention Detection [49.196182908826565]
AAD(Auditory Attention Detection)は、マルチスピーカー環境で脳信号からターゲット話者を検出することを目的としている。
現在のアプローチは主に、画像のようなユークリッドデータを処理するために設計された従来の畳み込みニューラルネットワークに依存している。
本稿では、入力として音声刺激を必要としないAADのための動的グラフ自己蒸留(DGSD)手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T13:43:46Z) - BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。