論文の概要: DiaCorrect: Error Correction Back-end For Speaker Diarization
- arxiv url: http://arxiv.org/abs/2309.08377v1
- Date: Fri, 15 Sep 2023 13:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:43:13.038764
- Title: DiaCorrect: Error Correction Back-end For Speaker Diarization
- Title(参考訳): DiaCorrect:話者ダイアリゼーションのための誤り訂正バックエンド
- Authors: Jiangyu Han, Federico Landini, Johan Rohdin, Mireia Diez, Lukas
Burget, Yuhang Cao, Heng Lu, Jan Cernocky
- Abstract要約: 本稿では,ダイアリゼーションシステムの出力を改良するために,DiaCorrectという誤り訂正フレームワークを提案する。
我々のモデルは、2つの並列畳み込みエンコーダと変換ベースのデコーダからなる。
- 参考スコア(独自算出の注目度): 9.311650017389262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose an error correction framework, named DiaCorrect, to
refine the output of a diarization system in a simple yet effective way. This
method is inspired by error correction techniques in automatic speech
recognition. Our model consists of two parallel convolutional encoders and a
transform-based decoder. By exploiting the interactions between the input
recording and the initial system's outputs, DiaCorrect can automatically
correct the initial speaker activities to minimize the diarization errors.
Experiments on 2-speaker telephony data show that the proposed DiaCorrect can
effectively improve the initial model's results. Our source code is publicly
available at https://github.com/BUTSpeechFIT/diacorrect.
- Abstract(参考訳): 本研究では,ダイアリゼーションシステムの出力をシンプルかつ効果的な方法で洗練するための誤り訂正フレームワークであるdiacorrectを提案する。
本手法は自動音声認識における誤り訂正手法に着想を得たものである。
我々のモデルは、2つの並列畳み込みエンコーダと変換ベースのデコーダからなる。
入力記録と初期システムの出力との相互作用を利用して、diacorrectは初期話者アクティビティを自動的に補正してダイアリゼーションエラーを最小化することができる。
2話者テレフォニーデータを用いた実験により,提案手法が初期モデルの結果を効果的に改善できることを示す。
ソースコードはhttps://github.com/butspeechfit/diacorrect.comで公開しています。
関連論文リスト
- Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Tag and correct: high precision post-editing approach to correction of speech recognition errors [0.0]
ASR(Automatic Speech Recognition)仮説の単語を単語単位で修正する方法を学ぶニューラルネットワークタグと、タグによって返される修正を適用する修正モジュールとから構成される。
提案手法はアーキテクチャによらず,任意のASRシステムに適用可能である。
論文 参考訳(メタデータ) (2024-06-11T09:52:33Z) - LM-Combiner: A Contextual Rewriting Model for Chinese Grammatical Error Correction [49.0746090186582]
過剰補正は中国の文法的誤り訂正(CGEC)タスクにおいて重要な問題である。
モデルアンサンブル法による最近の研究は、過剰補正を効果的に軽減し、ECCシステムの精度を向上させることができる。
本稿では,GECシステム出力の過度補正をモデルアンサンブルなしで直接修正できる書き換えモデルLM-Combinerを提案する。
論文 参考訳(メタデータ) (2024-03-26T06:12:21Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction [4.409889336732851]
話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:47:41Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。