論文の概要: Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network
- arxiv url: http://arxiv.org/abs/2111.00316v1
- Date: Sat, 30 Oct 2021 19:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 03:21:35.085524
- Title: Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network
- Title(参考訳): 注意誘導畳み込みニューラルネットワークを用いたカクテルパーティーシナリオにおけるリアルタイム話者カウント
- Authors: Midia Yousefi, John H.L. Hansen
- Abstract要約: 重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
- 参考スコア(独自算出の注目度): 60.99112031408449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most current speech technology systems are designed to operate well even in
the presence of multiple active speakers. However, most solutions assume that
the number of co-current speakers is known. Unfortunately, this information
might not always be available in real-world applications. In this study, we
propose a real-time, single-channel attention-guided Convolutional Neural
Network (CNN) to estimate the number of active speakers in overlapping speech.
The proposed system extracts higher-level information from the speech spectral
content using a CNN model. Next, the attention mechanism summarizes the
extracted information into a compact feature vector without losing critical
information. Finally, the active speakers are classified using a fully
connected network. Experiments on simulated overlapping speech using WSJ corpus
show that the attention solution is shown to improve the performance by almost
3% absolute over conventional temporal average pooling. The proposed
Attention-guided CNN achieves 76.15% for both Weighted Accuracy and average
Recall, and 75.80% Precision on speech segments as short as 20 frames (i.e.,
200 ms). All the classification metrics exceed 92% for the attention-guided
model in offline scenarios where the input signal is more than 100 frames long
(i.e., 1s).
- Abstract(参考訳): 現在の音声技術システムの多くは、複数のアクティブスピーカーが存在する場合でも、うまく動作するように設計されている。
しかし、ほとんどの解は共起話者の数が知られていると仮定する。
残念ながら、この情報は現実世界のアプリケーションでは必ずしも利用できないかもしれない。
本研究では,重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
次に、注目機構は抽出した情報を臨界情報を失うことなくコンパクトな特徴ベクトルに要約する。
最後に、アクティブスピーカーは、完全接続されたネットワークを使用して分類される。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プールに比べて,注意解がほぼ3%向上することが示されている。
提案された注意誘導CNNは、重み付き精度と平均リコールの両方で76.15%、音声セグメントで75.80%の精度を20フレーム(すなわち200ms)で達成している。
すべての分類基準は、入力信号が100フレーム以上(すなわち1s)のオフラインシナリオにおいて、注意誘導モデルにおいて92%を超える。
関連論文リスト
- BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with
Convolutional Cross Attention in Multi-talker Conditions [36.15815562576836]
時間領域単一チャネル音声強調(SE)は、マルチトーカー条件に関する事前情報なしでターゲット話者を抽出することが依然として困難である。
本稿では,脳波(EEG)を聴取者から記録した脳波を組み込んだ新しい時間領域脳波支援SEネットワーク(BASEN)を提案する。
論文 参考訳(メタデータ) (2023-05-17T06:40:31Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - AST: Audio Spectrogram Transformer [21.46018186487818]
オーディオ分類のための最初の畳み込みのない、純粋に注意に基づくモデルであるAudio Spectrogram Transformer(AST)を紹介します。
ASTはAudioSetの0.485 mAP、ESC-50の95.6%、音声コマンドV2の98.1%の精度で新しい最先端の結果を達成している。
論文 参考訳(メタデータ) (2021-04-05T05:26:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。
RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。
我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文 参考訳(メタデータ) (2020-11-23T19:10:40Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - Speaker Conditional WaveRNN: Towards Universal Neural Vocoder for Unseen
Speaker and Recording Conditions [19.691323658303435]
従来のニューラルボコーダは、トレーニングスピーカーに調整され、目に見えない話者に対する一般化能力に乏しい。
我々は、話者条件付きWaveRNN(SC-WaveRNN)と呼ばれるWaveRNNの変種を提案する。
標準のWaveRNNとは対照的に、SC-WaveRNNは話者埋め込みという形で追加情報を利用する。
論文 参考訳(メタデータ) (2020-08-09T13:54:46Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。