論文の概要: BW-EDA-EEND: Streaming End-to-End Neural Speaker Diarization for a
Variable Number of Speakers
- arxiv url: http://arxiv.org/abs/2011.02678v2
- Date: Fri, 12 Feb 2021 18:21:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:33:19.029590
- Title: BW-EDA-EEND: Streaming End-to-End Neural Speaker Diarization for a
Variable Number of Speakers
- Title(参考訳): BW-EDA-EEND: 可変話者に対するエンドツーエンドニューラル話者ダイアリゼーション
- Authors: Eunjung Han, Chul Lee, Andreas Stolcke
- Abstract要約: 本稿では,多様な話者に対して段階的にデータを処理する新しいオンラインエンドツーエンド型ニューラルダイアリゼーションシステムBW-EDA-EENDを提案する。
無制限のBW-EDA-EENDでは、オフラインのEDA-EENDに比べて10秒のコンテキストサイズで最大2つの話者に対して中程度の劣化しか示さない。
音声が到着するとダイアリゼーション出力をブロック単位で生成する制限レイテンシBW-EDA-EENDに対して,オフラインクラスタリングシステムに匹敵する精度を示す。
- 参考スコア(独自算出の注目度): 20.22005716662987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel online end-to-end neural diarization system, BW-EDA-EEND,
that processes data incrementally for a variable number of speakers. The system
is based on the Encoder-Decoder-Attractor (EDA) architecture of Horiguchi et
al., but utilizes the incremental Transformer encoder, attending only to its
left contexts and using block-level recurrence in the hidden states to carry
information from block to block, making the algorithm complexity linear in
time. We propose two variants: For unlimited-latency BW-EDA-EEND, which
processes inputs in linear time, we show only moderate degradation for up to
two speakers using a context size of 10 seconds compared to offline EDA-EEND.
With more than two speakers, the accuracy gap between online and offline grows,
but the algorithm still outperforms a baseline offline clustering diarization
system for one to four speakers with unlimited context size, and shows
comparable accuracy with context size of 10 seconds. For limited-latency
BW-EDA-EEND, which produces diarization outputs block-by-block as audio
arrives, we show accuracy comparable to the offline clustering-based system.
- Abstract(参考訳): 本稿では,多様な話者に対して段階的にデータを処理する新しいオンラインエンドツーエンド型ニューラルダイアリゼーションシステムBW-EDA-EENDを提案する。
このシステムは、堀口らのEncoder-Decoder-Attractor (EDA)アーキテクチャに基づいているが、インクリメンタルなTransformerエンコーダを使用し、左のコンテキストにのみ対応し、隠された状態のブロックレベルの再帰を利用してブロックからブロックへの情報を伝達し、アルゴリズムの複雑さを線形にする。
線形時間で入力を処理する無限遅延BW-EDA-EENDでは、オフラインのEDA-EENDに比べて10秒のコンテキストサイズで最大2つの話者に対して中程度の劣化しか示さない。
2つ以上の話者では、オンラインとオフラインの精度の差は大きくなるが、アルゴリズムは1~4人の話者に対してベースラインのオフラインクラスタリングダイアリゼーションシステムよりも優れており、コンテキストサイズが10秒と同等の精度を示している。
音声が到着するとダイアリゼーション出力をブロック単位で生成する制限レイテンシBW-EDA-EENDに対して,オフラインクラスタリングシステムに匹敵する精度を示す。
関連論文リスト
- Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Online Neural Diarization of Unlimited Numbers of Speakers [34.465500195087]
本稿では,無数の話者に対して話者ダイアリゼーションを行う手法について述べる。
アクセサベースのEENDの話者の出力数は、経験的に上限づけられている。
EEND-GLAは、アトラクタベースのEENDに教師なしクラスタリングを導入することで、この問題を解決する。
論文 参考訳(メタデータ) (2022-06-06T08:48:26Z) - A neural network-supported two-stage algorithm for lightweight
dereverberation on hearing devices [13.49645012479288]
本稿では,2段階の軽量オンライン補聴器のオンライン補聴アルゴリズムについて述べる。
このアプローチは、マルチチャネルのマルチフレーム線形フィルタとシングルチャネルのシングルフレームポストフィルタを組み合わせる。
どちらのコンポーネントも、ディープニューラルネットワーク(DNN)によって提供されるパワースペクトル密度(PSD)の推定に依存している。
論文 参考訳(メタデータ) (2022-04-06T11:08:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Efficient Autoprecoder-based deep learning for massive MU-MIMO Downlink
under PA Non-Linearities [0.0]
本稿では,マルチユーザ干渉を解消し,重度非線形(NL)PA歪みを補償する新しい手法であるAP-mMIMOを提案する。
以前の研究とは異なり、AP-mMIMOは計算量が少ないため、地球規模のエネルギー効率の高いシステムに適している。
論文 参考訳(メタデータ) (2022-02-03T08:53:52Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。