論文の概要: BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions
- arxiv url: http://arxiv.org/abs/2305.09994v1
- Date: Wed, 17 May 2023 06:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 17:15:00.344370
- Title: BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions
- Title(参考訳): BASEN:マルチトーカー条件における畳み込み注意を伴う時間領域脳支援音声強調ネットワーク
- Authors: Jie Zhang, Qing-Tian Xu, Qiu-Shi Zhu, Zhen-Hua Ling
- Abstract要約: 時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
- 参考スコア(独自算出の注目度): 36.15815562576836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time-domain single-channel speech enhancement (SE) still remains challenging
to extract the target speaker without any prior information on multi-talker
conditions. It has been shown via auditory attention decoding that the brain
activity of the listener contains the auditory information of the attended
speaker. In this paper, we thus propose a novel time-domain brain-assisted SE
network (BASEN) incorporating electroencephalography (EEG) signals recorded
from the listener for extracting the target speaker from monaural speech
mixtures. The proposed BASEN is based on the fully-convolutional time-domain
audio separation network. In order to fully leverage the complementary
information contained in the EEG signals, we further propose a convolutional
multi-layer cross attention module to fuse the dual-branch features.
Experimental results on a public dataset show that the proposed model
outperforms the state-of-the-art method in several evaluation metrics. The
reproducible code is available at https://github.com/jzhangU/Basen.git.
- Abstract(参考訳): 時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
聴取者の脳活動に参加者の聴取者の聴覚情報が含まれていることを聴覚注意復号法を用いて示す。
本稿では,脳波(EEG)信号を聴取者から記録した時間領域脳波支援SEネットワーク(BASEN)を用いて,単音節混合音声からターゲット話者を抽出する手法を提案する。
提案するbasenは,完全畳み込み型時間領域音声分離ネットワークに基づいている。
また,脳波信号に含まれる補完的情報を十分に活用するために,二重分岐特徴を融合する畳み込み多層クロスアテンションモジュールを提案する。
公開データセットを用いた実験結果から,提案手法はいくつかの評価指標において高い性能を示した。
再現可能なコードはhttps://github.com/jzhangu/basen.gitで入手できる。
関連論文リスト
- Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Multi-microphone Automatic Speech Segmentation in Meetings Based on
Circular Harmonics Features [0.0]
円形高調波領域(CH-DOA)の方向推定に基づく新しい空間的特徴セットを提案する。
AMIミーティングコーパスの実験では、CH-DOAは非活性化マイクロホンの場合の堅牢さを保ちながらセグメンテーションを改善することができる。
論文 参考訳(メタデータ) (2023-06-07T09:09:00Z) - Talking Head Generation Driven by Speech-Related Facial Action Units and
Audio- Based on Multimodal Representation Fusion [30.549120935873407]
トーキングヘッド生成は、任意の顔画像と対応する音声クリップを入力して、リップ同期音声ヘッドビデオを合成する。
既存の方法は、相互モーダル情報の相互作用と関係を無視するだけでなく、口筋の局所的な駆動情報も無視する。
拡張された非因果的時間的畳み込み自己保持ネットワークを含む新しい生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-27T08:05:24Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Extracting the Locus of Attention at a Cocktail Party from Single-Trial
EEG using a Joint CNN-LSTM Model [0.1529342790344802]
人間の脳は、複数の話者シナリオにおいて、特定の話者を干渉する話者から分離する際、非常によく機能する。
本稿では,聴覚の注意を喚起するために,結合畳み込みニューラルネットワーク(CNN)-長短期記憶(LSTM)モデルを提案する。
論文 参考訳(メタデータ) (2021-02-08T01:06:48Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。