論文の概要: SEAL: Speaker Error Correction using Acoustic-conditioned Large Language Models
- arxiv url: http://arxiv.org/abs/2501.08421v1
- Date: Tue, 14 Jan 2025 20:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:53:38.748185
- Title: SEAL: Speaker Error Correction using Acoustic-conditioned Large Language Models
- Title(参考訳): SEAL:音響条件付き大言語モデルを用いた話者誤り訂正
- Authors: Anurag Kumar, Rohit Paturi, Amber Afshan, Sundararajan Srinivasan,
- Abstract要約: 音響ダイアリザからLLMへよりきめ細かな情報を提供するための新しい音響条件付け手法を提案する。
提案手法は,Fisher,Callhome,RT03-CTSデータセットの話者誤り率を24~43%削減する。
- 参考スコア(独自算出の注目度): 15.098665255729507
- License:
- Abstract: Speaker Diarization (SD) is a crucial component of modern end-to-end ASR pipelines. Traditional SD systems, which are typically audio-based and operate independently of ASR, often introduce speaker errors, particularly during speaker transitions and overlapping speech. Recently, language models including fine-tuned large language models (LLMs) have shown to be effective as a second-pass speaker error corrector by leveraging lexical context in the transcribed output. In this work, we introduce a novel acoustic conditioning approach to provide more fine-grained information from the acoustic diarizer to the LLM. We also show that a simpler constrained decoding strategy reduces LLM hallucinations, while avoiding complicated post-processing. Our approach significantly reduces the speaker error rates by 24-43% across Fisher, Callhome, and RT03-CTS datasets, compared to the first-pass Acoustic SD.
- Abstract(参考訳): 話者ダイアリゼーション(SD)は、現代のエンドツーエンドのASRパイプラインの重要なコンポーネントである。
従来のSDシステムは通常オーディオベースであり、ASRとは独立して動作するが、特に話者遷移や重なり合う音声において話者エラーが発生することが多い。
近年,微調整された大言語モデル(LLM)を含む言語モデルは,書き起こし出力における語彙コンテキストを活用することにより,第2パス話者誤り訂正器として有効であることが示されている。
本研究では,音響ダイアリザからLLMへよりきめ細かい情報を提供するための,新しい音響条件付け手法を提案する。
また,より単純な制約付き復号法により,複雑な後処理を回避しつつ,LLMの幻覚を低減できることを示す。
提案手法は,第1パスアコースティックSDと比較して,Fisher,Callhome,RT03-CTSデータセットの話者誤り率を24~43%削減する。
関連論文リスト
- AG-LSEC: Audio Grounded Lexical Speaker Error Correction [9.54540722574194]
話者ダイアリゼーション(SD)システムは、通常音声ベースで、従来の音声転写パイプラインでは、ASRシステムとは独立して動作する。
本稿では,Lexical Speaker Error Correction (LSEC) システムを,既存のSDパイプラインから直接の話者スコアで拡張し,音響的に構築することを提案する。
このアプローチは、オーディオベースのSD、ASRシステムに対して25-40%の範囲でWDERを大幅に削減し、RT03-CTS、コールホーム・アメリカン・イングリッシュ、フィッシャーのデータセットに対して15-25%の差でLSECシステムを上回った。
論文 参考訳(メタデータ) (2024-06-25T04:20:49Z) - Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction [4.409889336732851]
話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:47:41Z) - BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR [54.23941663326509]
話者の頻繁な変化は、話者の変化を予測するのを難しくする。
境界対応型直列出力訓練(BA-SOT)を提案する。
オリジナルのSOTと比較して、BA-SOTはCER/UD-CERを5.1%/14.0%削減している。
論文 参考訳(メタデータ) (2023-05-23T06:08:13Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Segmenting Subtitles for Correcting ASR Segmentation Errors [11.854481771567503]
低リソース言語に対するASRモデルの音響的セグメンテーションを補正するモデルを提案する。
ASRアコースティックセグメンテーションを補正するためのニューラルネットワークタギングモデルをトレーニングし、下流のパフォーマンスを改善することを示します。
論文 参考訳(メタデータ) (2021-04-16T03:04:10Z) - End-to-End Speaker-Attributed ASR with Transformer [41.7739129773237]
本稿では,エンドツーエンド話者属性自動音声認識システムを提案する。
単調なマルチトーカー音声に対する話者カウント、音声認識、話者識別を共同で行う。
論文 参考訳(メタデータ) (2021-04-05T19:54:15Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。