論文の概要: DiaCorrect: Error Correction Back-end For Speaker Diarization
- arxiv url: http://arxiv.org/abs/2309.08377v1
- Date: Fri, 15 Sep 2023 13:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:43:13.038764
- Title: DiaCorrect: Error Correction Back-end For Speaker Diarization
- Title(参考訳): DiaCorrect:話者ダイアリゼーションのための誤り訂正バックエンド
- Authors: Jiangyu Han, Federico Landini, Johan Rohdin, Mireia Diez, Lukas
Burget, Yuhang Cao, Heng Lu, Jan Cernocky
- Abstract要約: 本稿では,ダイアリゼーションシステムの出力を改良するために,DiaCorrectという誤り訂正フレームワークを提案する。
我々のモデルは、2つの並列畳み込みエンコーダと変換ベースのデコーダからなる。
- 参考スコア(独自算出の注目度): 9.311650017389262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose an error correction framework, named DiaCorrect, to
refine the output of a diarization system in a simple yet effective way. This
method is inspired by error correction techniques in automatic speech
recognition. Our model consists of two parallel convolutional encoders and a
transform-based decoder. By exploiting the interactions between the input
recording and the initial system's outputs, DiaCorrect can automatically
correct the initial speaker activities to minimize the diarization errors.
Experiments on 2-speaker telephony data show that the proposed DiaCorrect can
effectively improve the initial model's results. Our source code is publicly
available at https://github.com/BUTSpeechFIT/diacorrect.
- Abstract(参考訳): 本研究では,ダイアリゼーションシステムの出力をシンプルかつ効果的な方法で洗練するための誤り訂正フレームワークであるdiacorrectを提案する。
本手法は自動音声認識における誤り訂正手法に着想を得たものである。
我々のモデルは、2つの並列畳み込みエンコーダと変換ベースのデコーダからなる。
入力記録と初期システムの出力との相互作用を利用して、diacorrectは初期話者アクティビティを自動的に補正してダイアリゼーションエラーを最小化することができる。
2話者テレフォニーデータを用いた実験により,提案手法が初期モデルの結果を効果的に改善できることを示す。
ソースコードはhttps://github.com/butspeechfit/diacorrect.comで公開しています。
関連論文リスト
- One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Improving Audio Caption Fluency with Automatic Error Correction [23.157732462075547]
本稿では,AAC出力後処理のための新しいAAC誤り訂正タスクを提案する。
我々は、観察に基づく規則を用いて、誤りのない字幕を破損させ、疑似文法的誤文生成を行う。
我々は、合成エラーデータセットに基づいてニューラルネットワークベースのモデルをトレーニングし、AAC出力の実際のエラーを修正するためにモデルを適用する。
論文 参考訳(メタデータ) (2023-06-16T13:37:01Z) - Lexical Speaker Error Correction: Leveraging Language Models for Speaker
Diarization Error Correction [4.409889336732851]
話者ダイアリゼーション (SD) は通常、認識された単語に話者ラベルを登録するために自動音声認識 (ASR) システムで使用される。
このアプローチは、特に話者回転と話者重複領域に関する話者誤差を引き起こす可能性がある。
語彙情報を用いた第2パス話者誤り訂正システムを提案する。
論文 参考訳(メタデータ) (2023-06-15T17:47:41Z) - SoftCorrect: Error Correction with Soft Detection for Automatic Speech
Recognition [116.31926128970585]
我々は,明示的かつ暗黙的な誤り検出の限界を回避するため,ソフトエラー検出機構を備えたSoftCorrectを提案する。
暗黙的な誤り検出とCTC損失と比較すると、SoftCorrectはどの単語が誤りであるかを明示的な信号を提供する。
AISHELL-1とAidatatangデータセットの実験では、SoftCorrectはそれぞれ26.1%と9.4%のCER削減を達成した。
論文 参考訳(メタデータ) (2022-12-02T09:11:32Z) - CorrectSpeech: A Fully Automated System for Speech Correction and Accent
Reduction [37.52612296258531]
提案方式はCorrectSpeechと呼ばれ、3段階の修正を行う。
補正音声の品質と自然性は、音声認識とアライメントモジュールの性能に依存する。
その結果,音声の発音誤りを訂正し,アクセントを低減できることがわかった。
論文 参考訳(メタデータ) (2022-04-12T01:20:29Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。