論文の概要: Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting
Applications
- arxiv url: http://arxiv.org/abs/2403.06570v1
- Date: Mon, 11 Mar 2024 10:11:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 19:32:38.496819
- Title: Improving Speaker Assignment in Speaker-Attributed ASR for Real Meeting
Applications
- Title(参考訳): 実会議用話者分散ASRにおける話者アサインメントの改善
- Authors: Can Cui (MULTISPEECH), Imran Ahamad Sheikh, Mostafa Sadeghi
(MULTISPEECH), Emmanuel Vincent (MULTISPEECH)
- Abstract要約: 本稿では,実生活シナリオにおける話者分散ASR(SA-ASR)システムの最適化を目的とした新しい研究を提案する。
本稿では,Voice Activity Detection (VAD), Speaker Diarization (SD), SA-ASRを含む実生活用パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Past studies on end-to-end meeting transcription have focused on model
architecture and have mostly been evaluated on simulated meeting data. We
present a novel study aiming to optimize the use of a Speaker-Attributed ASR
(SA-ASR) system in real-life scenarios, such as the AMI meeting corpus, for
improved speaker assignment of speech segments. First, we propose a pipeline
tailored to real-life applications involving Voice Activity Detection (VAD),
Speaker Diarization (SD), and SA-ASR. Second, we advocate using VAD output
segments to fine-tune the SA-ASR model, considering that it is also applied to
VAD segments during test, and show that this results in a relative reduction of
Speaker Error Rate (SER) up to 28%. Finally, we explore strategies to enhance
the extraction of the speaker embedding templates used as inputs by the SA-ASR
system. We show that extracting them from SD output rather than annotated
speaker segments results in a relative SER reduction up to 20%.
- Abstract(参考訳): エンドツーエンドのミーティングの書き起こしに関する過去の研究は、モデルアーキテクチャに焦点を当てており、主にシミュレーションされたミーティングデータで評価されてきた。
本稿では,音声セグメントの話者割当て改善のためのAMIミーティングコーパスなどの実生活シナリオにおける話者割当て型ASR(SA-ASR)システムの最適化を目的とした新しい研究を提案する。
まず、音声活動検出(VAD)、話者ダイアリゼーション(SD)、SA-ASRを含む実生活アプリケーションに適したパイプラインを提案する。
第2に、vad出力セグメントを用いてsa-asrモデルを微調整することを推奨し、テスト中にvadセグメントにも適用されることを考慮し、この結果が話者誤り率(ser)を28%まで低下させることを示した。
最後に,SA-ASRシステムによる入力として使用される話者埋め込みテンプレートの抽出方法を検討する。
注釈付き話者セグメントではなくSD出力から抽出すると、SERの相対的な削減率が20%になることを示す。
関連論文リスト
- Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Improving Target Speaker Extraction with Sparse LDA-transformed Speaker
Embeddings [5.4878772986187565]
対象話者抽出のためのクラス分離性を明確にした簡易な話者キューを提案する。
提案はSI-SDRiの9.9%の相対的な改善を示す。
19.4dBのSI-SDRiと3.78のPSSQでは、私たちの最高のTSEシステムは現在のSOTAシステムよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-16T06:30:48Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - A Comparative Study of Modular and Joint Approaches for
Speaker-Attributed ASR on Monaural Long-Form Audio [45.04646762560459]
話者分散自動音声認識(SA-ASR)は、マルチトーカー録音から「誰が何を話したか」を識別するタスクである。
共同最適化を考えると、最近、シミュレーションデータに有望な結果をもたらすエンド・ツー・エンド(E2E)SA-ASRモデルが提案されている。
本報告では,SA-ASRに対するモジュラーおよびジョイントアプローチの比較を行った。
論文 参考訳(メタデータ) (2021-07-06T19:36:48Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Minimum Bayes Risk Training for End-to-End Speaker-Attributed ASR [39.36608236418025]
本研究では,話者分散最小ベイズリスク(SA-MBR)訓練法を提案し,学習データに対する話者分散単語誤り率(SA-WER)を最小化する。
LibriSpeechコーパスを用いた実験により、提案されたSA-MBRトレーニングはSA-MMI訓練モデルと比較してSA-WERを9.0%削減することが示された。
論文 参考訳(メタデータ) (2020-11-03T22:28:57Z) - Investigation of End-To-End Speaker-Attributed ASR for Continuous
Multi-Talker Recordings [40.99930744000231]
話者プロファイルが存在しないケースに対処することで、以前の作業を拡張します。
E2E SA-ASRモデルの内部話者表現を用いて話者カウントとクラスタリングを行う。
また,E2E SA-ASRトレーニングの基準ラベルの簡単な修正も提案する。
論文 参考訳(メタデータ) (2020-08-11T06:41:55Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。