論文の概要: Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction
- arxiv url: http://arxiv.org/abs/2306.09313v1
- Date: Thu, 15 Jun 2023 17:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 13:26:45.900631
- Title: Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction
- Title(参考訳): 語彙的話者誤り訂正:話者ダイアリゼーション誤り訂正のための言語モデル活用
- Authors: Rohit Paturi, Sundararajan Srinivasan, Xiang Li
- Abstract要約: 話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
- 参考スコア(独自算出の注目度): 4.409889336732851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker diarization (SD) is typically used with an automatic speech
recognition (ASR) system to ascribe speaker labels to recognized words. The
conventional approach reconciles outputs from independently optimized ASR and
SD systems, where the SD system typically uses only acoustic information to
identify the speakers in the audio stream. This approach can lead to speaker
errors especially around speaker turns and regions of speaker overlap. In this
paper, we propose a novel second-pass speaker error correction system using
lexical information, leveraging the power of modern language models (LMs). Our
experiments across multiple telephony datasets show that our approach is both
effective and robust. Training and tuning only on the Fisher dataset, this
error correction approach leads to relative word-level diarization error rate
(WDER) reductions of 15-30% on three telephony datasets: RT03-CTS, Callhome
American English and held-out portions of Fisher.
- Abstract(参考訳): 話者ダイアリゼーション (sd) は通常、音声認識 (asr) システムを使って話者ラベルを認識された単語にアサインする。
従来のアプローチでは、独立に最適化されたASRとSDシステムから出力を調整し、SDシステムは通常、オーディオストリーム内の話者を特定するために音響情報のみを使用する。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
本稿では,現代言語モデル(LM)のパワーを活用し,語彙情報を用いた第2パス話者誤り訂正システムを提案する。
複数のテレフォニーデータセットに対する実験は、我々のアプローチが効果的かつ堅牢であることを示している。
この誤り訂正手法は, RT03-CTS, Callhome American English, held-out part of Fisherの3つのテレフォニーデータセットに対して, 単語レベルのダイアリゼーション誤り率(WDER)を15~30%削減する。
関連論文リスト
- Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - AG-LSEC: Audio Grounded Lexical Speaker Error Correction [9.54540722574194]
話者ダイアリゼーション(SD)システムは、通常音声ベースで、従来の音声転写パイプラインでは、ASRシステムとは独立して動作する。
本稿では,Lexical Speaker Error Correction (LSEC) システムを,既存のSDパイプラインから直接の話者スコアで拡張し,音響的に構築することを提案する。
このアプローチは、オーディオベースのSD、ASRシステムに対して25-40%の範囲でWDERを大幅に削減し、RT03-CTS、コールホーム・アメリカン・イングリッシュ、フィッシャーのデータセットに対して15-25%の差でLSECシステムを上回った。
論文 参考訳(メタデータ) (2024-06-25T04:20:49Z) - Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - End-to-End Speaker-Attributed ASR with Transformer [41.7739129773237]
本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
論文 参考訳(メタデータ) (2021-04-05T19:54:15Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。