論文の概要: Brainprint-Modulated Target Speaker Extraction
- arxiv url: http://arxiv.org/abs/2509.17883v1
- Date: Mon, 22 Sep 2025 15:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.456276
- Title: Brainprint-Modulated Target Speaker Extraction
- Title(参考訳): Brainprint-Modulated Target Speaker extract
- Authors: Qiushi Han, Yuan Liao, Youhao Si, Liya Huang,
- Abstract要約: パーソナライズされた高忠実度抽出のための新しいフレームワークであるBrainprint-ulated Speaker extract (BM-TSE)を提案する。
私たちのフレームワークの中核はパーソナライズされた変調機構であり、脳マップの埋め込みが学習される。
BM-TSEは最先端の性能を達成し、既存の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 1.6974371408199849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving robust and personalized performance in neuro-steered Target Speaker Extraction (TSE) remains a significant challenge for next-generation hearing aids. This is primarily due to two factors: the inherent non-stationarity of EEG signals across sessions, and the high inter-subject variability that limits the efficacy of generalized models. To address these issues, we propose Brainprint-Modulated Target Speaker Extraction (BM-TSE), a novel framework for personalized and high-fidelity extraction. BM-TSE first employs a spatio-temporal EEG encoder with an Adaptive Spectral Gain (ASG) module to extract stable features resilient to non-stationarity. The core of our framework is a personalized modulation mechanism, where a unified brainmap embedding is learned under the joint supervision of subject identification (SID) and auditory attention decoding (AAD) tasks. This learned brainmap, encoding both static user traits and dynamic attentional states, actively refines the audio separation process, dynamically tailoring the output to each user. Evaluations on the public KUL and Cocktail Party datasets demonstrate that BM-TSE achieves state-of-the-art performance, significantly outperforming existing methods. Our code is publicly accessible at: https://github.com/rosshan-orz/BM-TSE.
- Abstract(参考訳): ニューロステアリングされたターゲット話者抽出(TSE)における頑健でパーソナライズされたパフォーマンスを達成することは、次世代補聴器にとって重要な課題である。
これは主に、セッション間での脳波信号の固有非定常性と、一般化されたモデルの有効性を制限する高い対象間変動の2つの要因による。
これらの課題に対処するために,個人化・高忠実度抽出のための新しいフレームワークであるBrainprint-Modulated Target Speaker extract (BM-TSE)を提案する。
BM-TSEはまず、適応スペクトルゲイン(ASG)モジュールを備えた時空間EEGエンコーダを使用して、非定常性に耐性のある安定した特徴を抽出する。
我々のフレームワークの中核はパーソナライズされた変調機構であり、被験者識別(SID)と聴覚注意復号(AAD)タスクの共同監督の下で脳マップの埋め込みを学習する。
この学習された脳マップは、静的なユーザ特性と動的注意状態の両方を符号化し、音声分離プロセスを積極的に洗練し、各ユーザへの出力を動的に調整する。
パブリックなKULとCocktail Partyのデータセットの評価は、BM-TSEが最先端のパフォーマンスを達成し、既存の方法よりも大幅に優れていることを示している。
私たちのコードは、https://github.com/rosshan-orz/BM-TSEで公開されています。
関連論文リスト
- Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals [50.76802709706976]
異種脳波とMEG記録を対象とする脳基礎モデルBrain Omniを提案する。
多様なデータソースを統一するために、脳の活動を離散表現に定量化する最初のトークンであるBrainTokenizerを紹介します。
EEGの合計1,997時間、MEGデータの656時間は、事前トレーニングのために公開されているソースからキュレーションされ、標準化されている。
論文 参考訳(メタデータ) (2025-05-18T14:07:14Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - CSLP-AE: A Contrastive Split-Latent Permutation Autoencoder Framework
for Zero-Shot Electroencephalography Signal Conversion [49.1574468325115]
脳波分析の鍵となる目的は、基礎となる神経活動(コンテンツ)を抽出し、個体の変動(スタイル)を考慮することである。
近年の音声変換技術の発展に触発されて,脳波変換を直接最適化するCSLP-AEフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T22:46:43Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - EEG-NeXt: A Modernized ConvNet for The Classification of Cognitive
Activity from EEG [0.0]
脳波(EEG)に基づく脳-コンピュータインタフェース(BCI)システムにおける大きな課題の1つは、認知活動の分類のために主題/セッション不変の特徴を学習することである。
転送学習を容易にする新しいエンドツーエンド機械学習パイプラインであるEEG-NeXtを提案する。
論文 参考訳(メタデータ) (2022-12-08T10:15:52Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Subject Independent Emotion Recognition using EEG Signals Employing
Attention Driven Neural Networks [2.76240219662896]
主観非依存の感情認識が可能な新しいディープラーニングフレームワークを提案する。
タスクを実行するために、アテンションフレームワークを備えた畳み込みニューラルネットワーク(CNN)を提示する。
提案手法は、公開データセットを使用して検証されている。
論文 参考訳(メタデータ) (2021-06-07T09:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。