論文の概要: HTEC: Human Transcription Error Correction
- arxiv url: http://arxiv.org/abs/2309.10089v1
- Date: Mon, 18 Sep 2023 19:03:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 17:58:48.180687
- Title: HTEC: Human Transcription Error Correction
- Title(参考訳): HTEC:人間の転写誤り訂正
- Authors: Hanbo Sun, Jian Gao, Xiaomin Wu, Anjie Fang, Cheng Cao, Zheng Du
- Abstract要約: 高品質な人間の転写は、自動音声認識(ASR)モデルの訓練と改善に不可欠である。
人間の転写誤り訂正のためのHTECを提案する。
HTECは、誤った単語を予測しマスクするエラー検出モデルであるTrans-Checkerと、マスクされた位置を埋めるシーケンス対シーケンス生成モデルであるTrans-Fillerの2つのステージで構成されている。
- 参考スコア(独自算出の注目度): 4.241671683889168
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality human transcription is essential for training and improving
Automatic Speech Recognition (ASR) models. Recent study~\cite{libricrowd} has
found that every 1% worse transcription Word Error Rate (WER) increases
approximately 2% ASR WER by using the transcriptions to train ASR models.
Transcription errors are inevitable for even highly-trained annotators.
However, few studies have explored human transcription correction. Error
correction methods for other problems, such as ASR error correction and
grammatical error correction, do not perform sufficiently for this problem.
Therefore, we propose HTEC for Human Transcription Error Correction. HTEC
consists of two stages: Trans-Checker, an error detection model that predicts
and masks erroneous words, and Trans-Filler, a sequence-to-sequence generative
model that fills masked positions. We propose a holistic list of correction
operations, including four novel operations handling deletion errors. We
further propose a variant of embeddings that incorporates phoneme information
into the input of the transformer. HTEC outperforms other methods by a large
margin and surpasses human annotators by 2.2% to 4.5% in WER. Finally, we
deployed HTEC to assist human annotators and showed HTEC is particularly
effective as a co-pilot, which improves transcription quality by 15.1% without
sacrificing transcription velocity.
- Abstract(参考訳): 高品質な人間の転写は、自動音声認識(ASR)モデルの訓練と改善に不可欠である。
最近の研究 -\cite{libricrowd} では、1% の悪い転写語誤り率 (wer) がおよそ2%のasr werを増加させ、asrモデルを訓練することを発見した。
高度に訓練されたアノテータでも、転写エラーは避けられない。
しかし、ヒトの転写の修正を調査する研究はほとんどない。
ASRの誤り訂正や文法的誤り訂正のような他の問題に対する誤り訂正法は、この問題に対して十分な性能を発揮できない。
そこで我々は,HTECによる誤り訂正を提案する。
HTECは、誤った単語を予測しマスクするエラー検出モデルであるTrans-Checkerと、マスクされた位置を埋めるシーケンス対シーケンス生成モデルであるTrans-Fillerの2つのステージで構成されている。
本稿では,削除エラーを扱う4つの新しい操作を含む補正操作の包括的リストを提案する。
さらに,変圧器の入力に音素情報を組み込んだ組込み方式を提案する。
HTECは、他の手法を大きなマージンで上回り、WERの2.2%から4.5%を上回ります。
最後に,ヒトアノテータを補助するためにHTECを配備し,HTECは転写速度を犠牲にすることなく転写品質を15.1%向上させるコパイロットとして特に有効であることを示した。
関連論文リスト
- A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。
信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。
提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文 参考訳(メタデータ) (2024-06-29T17:56:28Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Human Transcription Quality Improvement [2.24166568188073]
本稿では,ラベリング段階における信頼度推定に基づく再処理と,ポストラベル段階における自動単語誤り訂正という,転写品質向上のための2つのメカニズムを提案する。
LibriCrowd - 大規模なクラウドソースによる、100時間の英語音声の音声書き起こしデータセット。
論文 参考訳(メタデータ) (2023-09-24T03:39:43Z) - Chinese Spelling Correction as Rephrasing Language Model [63.65217759957206]
文中のスペル誤りを検知し,訂正することを目的とした中国語スペル補正(CSC)について検討する。
現在の最先端の手法は、CSCをシーケンスタギングタスクと文対上の細いBERTベースのモデルとみなしている。
本稿では,文字から文字へのタグ付けではなく,追加のスロットを埋め込むことで文全体を言い換える言語モデル(ReLM)を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:04:28Z) - Correct Like Humans: Progressive Learning Framework for Chinese Text Error Correction [28.25789161365667]
Chinese Text Error Correction (CTEC) は、入力テキスト中のエラーを検出し、修正することを目的としている。
最近のアプローチではCTECの解決にPLM(Pre-trained Language Models)を主に採用している。
本稿では,PLMをベースとしたCTECモデルを誘導し,人間のように修正する,モデルに依存しない新しいプログレッシブラーニングフレームワークProTECを提案する。
論文 参考訳(メタデータ) (2023-06-30T07:44:49Z) - ASR Error Detection via Audio-Transcript entailment [1.3750624267664155]
音声書き起こしエンターメントを用いたASR誤り検出のためのエンドツーエンドアプローチを提案する。
提案モデルでは,音響エンコーダと言語エンコーダを用いて,それぞれ音声と転写をモデル化する。
提案モデルでは,すべての転写誤りに対して26.2%,医学的誤りに対して23%の分類誤り率(CER)を達成し,それぞれ12%と15.4%の強い基準値を改善することができた。
論文 参考訳(メタデータ) (2022-07-22T02:47:15Z) - Automatic Correction of Human Translations [8.137198664755598]
人為的な翻訳を自動的に修正するタスクである翻訳誤り訂正(TEC)を導入する。
TECのヒューマンエラーは、自動編集後データセットのMTエラーよりも多種多様なエラーを示し、翻訳エラーははるかに少ないことを示す。
論文 参考訳(メタデータ) (2022-06-17T07:30:55Z) - Improving Translation Robustness with Visual Cues and Error Correction [58.97421756225425]
ノイズの多いテキストに対する翻訳の堅牢性を改善するビジュアルコンテキストのアイデアを紹介します。
また,誤り訂正を補助タスクとして扱うことで,新しい誤り訂正訓練手法を提案する。
論文 参考訳(メタデータ) (2021-03-12T15:31:34Z) - Improving the Efficiency of Grammatical Error Correction with Erroneous
Span Detection and Correction [106.63733511672721]
ESD(Eroneous Span Detection)とESC(Eroneous Span Correction)の2つのサブタスクに分割することで、文法的誤り訂正(GEC)の効率を改善するための言語に依存しない新しいアプローチを提案する。
ESDは、効率的なシーケンスタグ付けモデルを用いて文法的に誤りテキストスパンを識別する。ESCは、Seq2seqモデルを利用して、注釈付き誤字スパンの文を入力として取り、これらのスパンの修正テキストのみを出力する。
実験の結果,提案手法は英語と中国語のGECベンチマークにおいて従来のセク2seq手法と同等に動作し,推論に要するコストは50%以下であった。
論文 参考訳(メタデータ) (2020-10-07T08:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。