Fugu-MT 論文翻訳(概要): Blind Speech Separation and Dereverberation using Neural Beamforming

論文の概要: Blind Speech Separation and Dereverberation using Neural Beamforming

arxiv url: http://arxiv.org/abs/2103.13443v1
Date: Wed, 24 Mar 2021 18:43:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-27 03:21:10.916492
Title: Blind Speech Separation and Dereverberation using Neural Beamforming
Title（参考訳）: ニューラルビームフォーミングを用いたブラインド音声分離とデバーベレーション
Authors: Lukas Pfeifenberger and Franz Pernkopf
Abstract要約: 本稿では,Blind Speech Separation and Dereverberation (BSSD) ネットワークについて述べる。話者分離は、予め定義された空間的手がかりのセットによって導かれる。残響は神経ビームフォーミングを用いて行われ、話者識別は埋め込みベクトルと三重項マイニングによって支援される。
参考スコア（独自算出の注目度）: 28.7807578839021
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we present the Blind Speech Separation and Dereverberation (BSSD) network, which performs simultaneous speaker separation, dereverberation and speaker identification in a single neural network. Speaker separation is guided by a set of predefined spatial cues. Dereverberation is performed by using neural beamforming, and speaker identification is aided by embedding vectors and triplet mining. We introduce a frequency-domain model which uses complex-valued neural networks, and a time-domain variant which performs beamforming in latent space. Further, we propose a block-online mode to process longer audio recordings, as they occur in meeting scenarios. We evaluate our system in terms of Scale Independent Signal to Distortion Ratio (SI-SDR), Word Error Rate (WER) and Equal Error Rate (EER).
Abstract（参考訳）: 本稿では,単一ニューラルネットワークにおける話者分離と話者識別を同時に行うbssd(blind speech separation and dereverberation)ネットワークを提案する。話者分離は予め定義された空間的手がかりによって導かれる。残響は神経ビームフォーミングを用いて行われ、話者識別は埋め込みベクトルと三重項マイニングによって支援される。本稿では,ニューラルネットワークを用いた周波数領域モデルと,潜在空間でビームフォーミングを行う時間領域変種を提案する。さらに,会議シナリオで発生する長大な音声録音を処理するブロックオンラインモードを提案する。本研究では,si-sdr(scale independent signal to distortion ratio),wer(word error rate)およびeer(equal error rate)を用いて評価を行った。

関連論文リスト

VINP: Variational Bayesian Inference with Neural Speech Prior for Joint ASR-Effective Speech Dereverberation and Blind RIR Identification [9.726628816336651]
本研究は, ニューラルスピーチ先行(VINP)を用いた変分ベイズ推論フレームワークを提案する。単チャンネル音声の発声実験では、人間の知覚に関連するほとんどの指標において、VINPが高度なレベルに達することが示されている。
論文参考訳（メタデータ） (2025-02-11T02:54:28Z)
Neural Blind Source Separation and Diarization for Distant Speech Recognition [38.09770107659523]
我々は、弱い教師付きで神経推論モデルを導入し、訓練する。訓練されたモデルは、補助的な情報なしで、音声の混合を共同で分離、ダイアリゼーションすることができる。 AMIコーパスを用いた実験により,本手法はオラクルダイアリゼーションの結果でGASより優れていた。
論文参考訳（メタデータ） (2024-06-12T16:45:35Z)
Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning [2.3076690318595676]
本稿では,ネットワーク型IoTオーディオデバイスを対象とした,計算効率のよい分散話者ダイアリゼーションフレームワークを提案する。フェデレートラーニングモデルは、トレーニングのための大規模なオーディオデータベースを必要とせずに、会話に参加する参加者を特定することができる。話者埋め込みのコサイン類似性に依存するフェデレートラーニングモデルに対して、教師なしオンライン更新機構を提案する。
論文参考訳（メタデータ） (2024-04-16T18:40:28Z)
Speaker Embedding-aware Neural Diarization: a Novel Framework for Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文参考訳（メタデータ） (2022-03-18T06:40:39Z)
MFA: TDNN with Multi-scale Frequency-channel Attention for Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文参考訳（メタデータ） (2022-02-03T14:57:05Z)
StutterNet: Stuttering Detection Using Time Delay Neural Network [9.726119468893721]
本稿では,新しい深層学習に基づく発話検出システムstutternetについて述べる。我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。
論文参考訳（メタデータ） (2021-05-12T11:36:01Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
Streaming Multi-talker Speech Recognition with Joint Speaker Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。 Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文参考訳（メタデータ） (2021-04-05T18:37:33Z)
Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文参考訳（メタデータ） (2020-08-13T09:36:05Z)
Speaker diarization with session-level speaker embedding refinement using graph neural networks [26.688724154619504]
話者ダイアリゼーション問題に対するグラフニューラルネットワーク(GNN)の最初の利用法として,GNNを用いて話者埋め込みを局所的に洗練する手法を提案する。事前学習されたモデルによって抽出された話者埋め込みは、単一のセッション内の異なる話者がより分離された新しい埋め込み空間に再マップされる。改良された話者埋め込みのクラスタリング性能は,シミュレーションデータと実会議データの両方において,元の埋め込みよりも優れていた。
論文参考訳（メタデータ） (2020-05-22T19:52:51Z)
Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文参考訳（メタデータ） (2020-05-16T23:23:22Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。